下载安卓APP箭头
箭头给我发消息

客服QQ:3315713922

为什么说数据科学与机器学习工具正处于 “大爆炸”的时代

作者:课课家教育     来源: http://www.kokojia.com点击数:1043发布时间: 2019-05-04 15:39:01

标签: 大数据数据分析数据结构

    未来,数据科学将成为一门专门的学科,被越来越多的人所认知。各大高校将设立专门的数据科学类专业,也会催生一批与之相关的新的就业岗位。与此同时,基于数据这个基础平台,也将建立起跨领域的数据共享平台,之后,数据共享将扩展到企业层面,并且成为未来产业的核心一环。

    日前, Gartner 发布了 2019 年版面向数据科学与机器学习工具的魔力象限。Gartner 的魔力象限是在某一特定时间内对市场情况进行的图形化描述,根据 Gartner 的定义,它描述了 Gartner 依据标准对该市场内的厂商所进行的分析。

Gartner 表示,目前用于数据科学的工具正在迅速发生变化。该公司在其最新的数据科学和机器学习平台的报告中称,我们正处于 “大爆炸” 中。
 
为什么说数据科学与机器学习工具正处于 “大爆炸”的时代_数据分析_数据结构_数据分析_课课家

      日前, Gartner 发布了 2019 年版面向数据科学与机器学习工具的魔力象限。Gartner 的魔力象限是在某一特定时间内对市场情况进行的图形化描述,根据 Gartner 的定义,它描述了 Gartner 依据标准对该市场内的厂商所进行的分析。Datanami 的 Alex Woodie 为我们解读了 2019 年版面向数据科学和机器学习工具的魔力象限。

Gartner 表示,目前用于数据科学的工具正在迅速发生变化。该公司在其最新的数据科学和机器学习平台的报告中称,我们正处于 “大爆炸” 中。

1 月 28 日,Gartner 发布了《数据科学和机器学习平台魔力象限》(Magic Quadrant for Data Science and Machine Learning Platforms),并表示:“数据科学和机器学习市场是健康、活跃的,众多供应商提供了一系列产品。这个市场正在经历一场‘大爆炸’,这场‘大爆炸’不仅重新定义了应由谁来做数据科学和机器学习,还重新定了数据科学和机器学习应如何实现。”

分析师小组将数据科学平台定义为综合场所,在这里,数据科学家、民间数据科学家和开发人员不仅可以得到构建数据科学应用所需的所有核心功能,还可以将它们嵌入到现有业务流程和管理中,并对其进行管理和维护。

数据科学和机器学习平台必须满足最低要求,并包括以下工具:

♦ 提取和准备数据;

♦ 以交互方式探索和可视化数据;

♦ 工程数据特征和构建预测模型;

♦ 与周围基础设施集成,测试并部署这些模型。

Gartner 数据科学与机器学习平台魔力象限(图:Gartner)

Gartner 认为,整合和凝聚力是关键,如果应用程序(尤其是开源产品)只是简单地将各种包和库捆绑起来,那么这样的产品并不能视为真正的平台。

      虽然这些核心要求为数据科学和机器学习平台奠定了基础,但不同的供应商在如何实现这些需求上存在着很大的差异。Gartner 指出,专业数据科学家可能更喜欢用 Python 或 R 编写代码,而其他人更喜欢数据科学笔记本的易用性,如 Jupyter。还有一些不太懂技术的人更喜欢用鼠标在界面上点击,因为对他们来说这样很直观。

领导者象限

      在领导者象限中,Gartner 列入了四家供应商,包括:KNIME、RapidMiner、TIBCO Software、SAS。

在 Gartner 的评估中,KNIME 名列前茅,这归功于客户的大力支持、广泛的产品组合以及市场上 “最平衡的” 愿景之一。苏黎世公司的产品系列(包括开源 KNIME Analytics 产品和商业 KNIME Server 产品)被誉为分析领域的 “瑞士军刀”。对深度学习、中级用户提供的的易用性以及与其他包集成的高级功能的支持受到了称赞,然而,性能和可扩展性被视为弱点,以及对物联网的吸引力也很有限。

      在领导者象限中,Rapid Miner 也是名列前茅,这得益于它在易用性和支持复杂数据科学能力之间的平衡。这款软件支持深度学习技术并部署到 GPU,Gartner 似乎很喜欢 Rapid Miner 为机器学习部署提供更高的透明度。它与开源工具的整合有利于数据科学家。主要关注点是数据准备和可视化、许可和定价、模型操作。

      TIBCO 从挑战者象限中迈出了一大步,购买了一系列分析领域的企业,包括 Jaspersoft、Spotfire、Statistica 和 Alpine Data,并将它们整合到统一的平台中。Gartner 很欣赏 TIBCO 的这一点:提供端到端工作流程集成以及物联网功能,尤其是流式分析的整合。它潜在的问题包括性能和稳定性、数据管理及操作方面的问题。

      SAS 是这份名单上的多年竞争者。实际上它有多个经过评估的平台。它的 Enterprise Miner 产品在一系列指标中提供了强大可靠的性能,而可视化数据挖掘与机器学习(Visual Data Mining and Machine Learning,VDMML)在数据准备和扩充方面得分很高。很高的客户满意度和强大的市场占有率巩固了 SAS 作为领导者的地位。但 Gartner 也指出了 SAS 存在的一些缺点,特别是在定价和产品一致性方面,SAS EM 的用户体验并没有达到公众的预期,而且 SAS 的开源方式对 Gartner 来说是个问号。

挑战者象限

挑战者象限相当空荡,在这一象限中只有两家供应商: Alteryx 和 Dataiku。

      Alteryx 通过保持其 “执行能力”(Y 轴),但却失去了一些 “视觉完整性”(X 轴),从而跌出了领导者象限。Gartner 在端到端管道中提及了加州 Irvin 公司的民间数据科学能力,分析师小组表示,尽管 Alteryx 有这种能力,但市场认为 Alteryx 只是一种数据准备工具,这一观点掩盖了它真正的价值。

     Dataiku 的数据科学工作室(Data Science Studio,DSS)因其促进不同利益相关者(从数据工程师到科学家)之间合作的方式而获得好评。Gartner 还喜欢它为机器学习工作流程带来的自动化,以及模型投产后的管理和监控。报告称,Dataiku 存在的一些问题包括可扩展性、定价以及对流式分析和物联网用例的支持。

有远见者象限

有远见者象限如此拥挤不堪,只有不到七家新的供应商在这一象限里争夺位置。

      Databricks 于 2 月 5 日获得了 2.5 亿美元的风投。Databricks 对整个分析生命周期的支持、对混合云战略的支持以及支持各种用户的能力,给 Gartner 留下了深刻的印象。用户对基于 Spark 的产品给予了高度评价,据 Gartner 称,文档是 Databricks 的加分项之一。然而,定价、合同谈判及监视、管理和故障排除与调试的潜在问题都是 Databricks 的潜在弱点。

      Gartner 表示,这是 DataRobot 在有远见者象限中首次亮相,这要归功于它 “为增强数据科学和机器学习设定了标准”,客户因此有了强大的体验,这有助于公司在已有忠实客户群上获得吸引力。销售执行、定价、可扩展性问题以及 “增强分析” 空间可能的商品化都是共同关注的问题。   

      H2O.ai 在 2 月 5 日召开了 H2O 世界大会,由于市场竞争激烈,以及客户对其能力的一些担忧,H2O.ai 从领导者象限跌落到有远见者象限中。但,其核心开源机器学习组件的性能仍然是 H2O.ai 的强项,它基于 GPU 的深度学习和无人驾驶人工智能的自动机器学习能力令 Gartner 印象深刻。但是,对于非开发人员来说,学习曲线过于陡峭,而且缺乏管理能力,数据访问和数据准备的能力也欠缺,这些都是令人担忧的问题。

      据 Gartner 的说法,Mathworks 在满足以资产为中心的行业客户的需求方面有着 “惊人的力量”(该公司在制造商和工程组织中有着多年的经验)。因此,MathWorks 从挑战者象限向有远见者象限迈出了巨大的一步。它提供的 MATLAB 因其 “民间工程师” 能力而广受赞誉,而实时流媒体、深度学习和仿真的集成数据准备和支持,给人们留下了深刻的印象。Dings 很难被非工程师使用,而且不支持 Google Cloud Platform,缺乏自动机器学习能力也是其不利因素。

      Microsoft 凭借基于云端的产品取得了不错的成绩,包括 Azure Machine Learning、Azure Data Factory、Azure HDInsight、Power BI。Microsoft 与第三方合作的方式,尤其是 Databricks 的 Spark 产品,对各种数据角色(包括入门级的机器学习爱好者)的支持也是一个加分项。机器学习过程中的自动化是一个问题,所有不同工具的一致性也是如此。缺乏本地化能力也限制了它的适用性。

      尽管 IBM 在 2019 年仍然留在有远见者象限,但它已经失去了优势。IBM Watson Studio 产品的全面性得到了 Gartner 的称赞,该产品为专家和民间数据科学家提供服务。将 SPSS 建模器集成到 Watson Studio 中也得到了称赞。但是,IBM 重塑产品和转变战略的频率是 Gartner 关注的问题,因为获得完整的端到端功能还需要多个产品的许可授权。

       Google 在数据科学和机器学习平台排名方面表现相当不错,很大程度上这要归功于 Google 的云端上广泛的可用工具。它的核心数据科学平台包括 Cloud ML Engine、Cloud AutoML、TensorFlow 和 BigQuery ML。但是 Google 也提供了独特的硬件,包括 Tensor 处理单元(Tensor Processing Unit,TPU)、Kaggle 众包以及一系列其他产品。对 Google 来说,可扩展性和速度是 Google 的优势。但是,这些工具之间缺乏端到端的一致性是个问题,而且也缺乏可用性。另外,缺少本地化产品也是个问题。

特定领域者象限

特定领域者象限有四家供应商。

      SAP 的 Predictive Analytics(PA)产品与 HANA 紧密集成,使其适合 SAP HANA 客户。处理大型 HANA 数据集和江模型部署到 SAP 应用的能力是强项。SAP 对统一机器学习架构的愿景也是如此,它与 Leonardo 机器学习基金会相关。然而,产品的一致性、不断变化的人工智能战略以及客户体验,都是对这家德国巨头不利的标志。

      Domino Data Lab 从有远见者象限降级,这主要反映了其感知执行能力的下降。Gartner 很欣赏 Domino 的产品战略,尤其是它专注于协作和构建端到端解决方案。它与开源和专有产品的整合能力是额外的优势,它的可扩展性也是如此。但是,根据 Gartner 的调查,Domino 侧重于专家数据科学家,这让民间数据科学家感到不满,而且它还缺乏一些数据准备、自动化和增强功能。

     Anaconda 仍然属于特定领域者类别。Anaconda 产品的主要优势在于它能够接触开源 Python 社区,该社区继续推动数据科学的创新。它扩展开源 Python 的能力也是个优势。但是根据 Gartner 的说法,成功使用 Anaconda 平台所需的专业知识是一个警示,Python “丛林” 的复杂性也是一个问题。对开源社区的依赖也使客户在需要某些特定内容时处于劣势(Gartner 使用了模型操作化的示例),整体的一致性水平也是缺点之一。

      Datawatch 是魔力象限的新成员,于 2018 年 1 月收购了 Angoss,Angoss 在该领域拥有超过 20 年的经验。Datawatch 产品的一致性和易用性得到了 Gartner 的称赞,其文本分析和优化引擎组件被标记为高于平均水平。客户支持也是一个加分项,但,数据准备能力的缺乏,以及产品的总体前景和收购带来的不确定性拉低了 Datawatch 的成绩。

      大数据的世界不只是一个单一的、巨大的计算机网络,而是一个由大量活动构件与多元参与者元素所构成的生态系统,终端设备提供商、基础设施提供商、网络服务提供商、网络接入服务提供商、数据服务使能者、数据服务提供商、触点服务、数据服务零售商等等一系列的参与者共同构建的生态系统。而今,这样一套数据生态系统的基本雏形已然形成,接下来的发展将趋向于系统内部角色的细分,也就是市场的细分;系统机制的调整,也就是商业模式的创新;系统结构的调整,也就是竞争环境的调整等等,从而使得数据生态系统复合化程度逐渐增强。

 

赞(19)
踩(0)
分享到:
华为认证网络工程师 HCIE直播课视频教程