下载安卓APP箭头
箭头给我发消息

客服QQ:3315713922

数据科学领域的核心技能和新兴技能分别有哪些?

作者:张晓艺     来源: IT168点击数:823发布时间: 2019-10-01 15:21:05

标签: 大数据数据管理数据分析

对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

近年来随着大数据的迅速发展,各种各样的数据分析技能也逐渐大热,为了找到数据科学领域目前最常用的技能和未来最流行的应用趋势,我们进行了一项调查。

近年来随着大数据的迅速发展,各种各样的数据分析技能也逐渐大热,为了找到数据科学领域目前最常用的技能和未来最流行的应用趋势,我们进行了一项调查。

我们确定了数据科学技能的两个主要类别:一个是大多数受访者拥有的13种核心技能,另一个是大多数还没用但想要应用的热门新兴技能。

本次调查主要有以下两个问题:

  1. 您目前拥有哪些技能(可以在工作或研究中使用的水平)?
  2. 您想增加或提高哪些技能?

本次调查获得了1500以上的票数,样本足够大,可以做出有意义的推断。

下面的图1中,X轴显示已经具有的技能 ,即第一个民意调查问题的答案,Y轴显示想要的技能 ,即第二个民意调查问题的答案。每个圆圈的大小与拥有该技能的选民比例成正比,而颜色则取决于想要/拥有的比例(红色高,数值大于1;蓝色低,数值小于1)。

注:其他大数据工具适用 于Hadoop或Spark以外的大数据工具。

数据科学领域的核心技能和新兴技能分别有哪些_大数据_数据管理_数据分析_课课家

图1:拥有技能和想要技能

注意此图中的两个主要类别。

图表右侧蓝色虚线框中的第1类包括超过40%的选民所拥有的技能,其需要/拥有的比率小于1。我们称其为核心数据科学技能,具体内容参考表1。

表1:核心数据科学技能,以拥有的比率降序排列

其中,最需要增加或改进的技能是机器学习(41%)和Python(37%)。增长最少的技能是Excel,只有7%的人希望增加或提高其Excel技能。

第二个集群是图1左侧用红色边框标记的部分,包括当前不那么受欢迎的技能(拥有比率<30%),但是却在增长,想要/拥有的比率超过1,参见表2。

表2:热门或者新兴的数据科学技能,按想要 /拥有的降序排列

有趣的是,尽管有观点认为Hadoop在下降,但在这次调查中,有更多的人希望学习Hadoop,而不是已经流行的技能,因此它可能会越来越流行。

我们没有把Julia放2在热门/新兴技能中,尽管它的想要/拥有比率为3.4,因为只有2%的选民选择它,它还没有得到足够的支持。

剩下的技能如XGBoost、软件工程、java、MATLAB、SAS的拥有比率为10%-30%,但想要/拥有比率没有增长,小于1。

表3:其他数据科学技能,按拥有比率从高到低的顺序排列

下面是关于本次调查的更多细节。图2将所有技能按拥有百分比递减排列。

图2:受访者拥有的数据科学技能

图3显示了受访者希望添加或改进的技能以及他们所拥有的技能。

图3:想要添加或改进(红色)并拥有(蓝色) 的技能

我们看到,当前数据科学家最想要添加的技能是深度学习、Tensorflow、机器学习和Python。

本次调查的受访者的就业类型分布如下:

  • 工业/个体经营:64.4%
  • 政府/非营利组织:7.2%
  • 学术界/大学:7.0%
  • 学生:14.3%
  • 其他/NA:7.1%
  • 区域分布为:
  • 美国/加拿大:37.9%
  • 欧洲:28.3%
  • 亚洲:19.3%
  • 拉丁美洲:6.1%
  • 非洲/中东:4.8%
  • 其他:3.5%
    大数据(big data)是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据有五大特点,即大量(Volume)、高速(Velocity)、多样(Variety)、低价值密度(Value)、真实性(Veracity)。它并没有统计学的抽样方法,只是观察和追踪发生的事情。 大数据的用法倾向于预测分析、用户行为分析或某些其他高级数据分析方法的使用。
赞(12)
踩(0)
分享到:
华为认证网络工程师 HCIE直播课视频教程