下载安卓APP箭头
箭头给我发消息

客服QQ:3315713922

Hadoop真正的发展方向详解

作者:课课家教育     来源: http://www.kokojia.com点击数:1388发布时间: 2017-08-10 13:00:32

标签: 大数据数据分析虚拟化

  一个企业的成功不是由数据量决定的,而是由能否成功的从大数据中发现和抽取有用的知识模式和关系决定的,然后用这些有价值的信息创造出有价值的产 品。统计学、机器学习和数据挖掘可以很好的用于理解数据和发掘数据的价值。自然,为了成功数据分析者必须具备这些领域的专门知识。

Hadoop真正的发展方向详解_大数据_数据分析_虚拟化_课课家教育

  Hadoop是目前大数据分析领域中应用最广泛的一种分布式架构,而经过相当长时间的发展,Hadoop在功能上也越来越成熟。尤其在过去三年里,它得到前所未有的发展,并被很多公司大规模采用。然而时代在变化,Hadoop在多云的未来该何去何从?

  根据市场调研公司Forrester估计,2017年用户将在Hadoop软件和相关服务上花费8亿美元。这并不奇怪,因为在过去这段时间里,Hadoop供应商们充分利用Cloudera、 Hortonworks、和MapR等产品使Hadoop家喻户晓。但是,时代在变化,Hadoop与其它技术一样也受到云计算的影响。

  用户们希望借助公有云来处理更多的大数据,所以尽管Hadoop不是专为云而生,Hadoop供应商们还是在努力将Hadoop与云联系起来。就像一位Hadoop供应商的内部人士所言:“如果我们真正理解云,就不会用原来的方式去设计Hadoop。“事实上,所有Hadoop供应商都在通过自家策略使Hadoop与云相结合,尤其是在对象存储和调度策略上。

  但是,云供应商似乎并未向Hadoop供应商们敞开怀抱。云供应商正在通过自己的数据解决方案代替Hadoop,这为Hadoop在多云的未来发展蒙上了阴影。

  在大数据相关业务上,云供应商们采用了隐藏或替换Hadoop的方式满足用户需求。比如AWS 的Athena,你可以对大数据执行SQL查询,但不用关心底层的服务器。这使“无服务器”产品成为趋势,比如Google云端功能就是一个例子;DataBricks则直接针对S3(亚马逊云服务)使用Spark。看到这个模式了吗?

  随着越来越多的公司厌倦了Hadoop的内部复杂性,这些公司正寻求把Hadoop堆栈转移到公有云,这意味着Hadoop供应商的市场和营收将被云厂商蚕食。

  在中国,尽管网络营销的概念很火,但网络营销的效率低于一些发达国家也是事实。无论是门户广告、搜索引擎广告,还是广告联盟,从行业平均转化率上看,都要低于国外较为成熟国家的水平。据估计,国内的Bounce rate(蹦失率,即用户只浏览第一页即离开的比例)介于90%~99%之间,而欧美的Bounce rate则是70%左右。诚然,国内的网络营销环境处于发展之中,环境不那么尽如人意,但中国互联网络信息中心分析师孙秀秀认为,出现这种情况的很多责任在投放广告的企业方,在于对营销背后的数据分析工作的不重视,没有精确定位有效的客户群,导致大量的展示给了不相关的网民。通常,广告投放前的数据分析可以分为两步走。

第一步:描述目标群体。比如,目标群体是18~25岁,上网购物的年轻女性。第二步:描述此群体的网络活动轨迹。也就是说,知道目标客户群上什么网站、做什么事、在什么时间地点能够找到他非常重要。

  第一步:描述目标群体。比如,目标群体是18~25岁,上网购物的年轻女性。第二步:描述此群体的网络活动轨迹。也就是说,知道目标客户群上什么网站、做什么事、在什么时间地点能够找到他非常重要。

  实际上,论覆盖面,网络营销还远远赶不上传统媒体。2009年底中国的互联网普及率为28.9%,而同期中国电视的普及率却已经超过80%。但是,仍旧有很多有远见的企业选择网络营销。其中的一个重要原因是,网络营销的全过程都可以被追踪到,通过数据分析可以随时调整投放方式。

  公有云中的Serverless架构(无服务架构),以及其它能够替代Hadoop的解决方案,都将削弱Hadoop收入;所以除非Hadoop社区能够给行业一个令人信服的理由,才能说服用户继续使用Hadoop,从而保住Hadoop的市场。

  就Hadoop目前的生态而言,各供应商之间系出同源但又各自为战。大数据组件、安全性、元数据及管理等产品及服务都能单独作为不同供应商之间的独特竞争力,这让Hadoop的服务无法形成闭环。而服务闭环却是用户选择将Hadoop作为他们的大数据战略核心最关键的因素。因此,在面对亚马逊、谷歌、IBM和其他公司提供了Hadoop替代方案的多云未来,Hadoop供应商们无法团结起来一起保护Hadoop的地位。

  所以我们有理由相信,在未来两三年内,Hadoop将只会提供一个品牌而非一条产业链或具体的产品。可以看到的是,当下的Hortonworks、Cloudera、MapR和Pivotal都纷纷脱离了Hadoop供应商标签,他们也正是看到了这种趋势。

  如果再考虑到深度学习和人工智能对Hadoop的影响,那就更加混乱了。就像Hadoop不是为云而生一样,它同样不是为深层学习所需的矩阵数学而设计的。云团队正在忙于创建合适人工智能发展的友好环境,这意味着Hadoop供应商要做更多努力以保持他们软件的兼容性。未来Hadoop供应商们会让Hadoop成为AI的平台吗?大概不会。

如果再考虑到深度学习和人工智能对Hadoop的影响,那就更加混乱了。就像Hadoop不是为云而生一样,它同样不是为深层学习所需的矩阵数学而设计的。云团队正在忙于创建合适人工智能发展的友好环境,这意味着Hadoop供应商要做更多努力以保持他们软件的兼容性。未来Hadoop供应商们会让Hadoop成为AI的平台吗?大概不会。

  所以Hadoop在未来还会保持两到三年的强劲增长,但最终它可能只会留在数据库与大型机身边。数字时代的变化速度太快,没有任何一种技术可以长盛不衰!

  为了解决数据量大的问题,大数据平台(例如:Apache Hadoop、LexisNexis HPPC)要求数据是被整理过的。数据分析员应该具有大数据平台应用的全方位知识,这样才能熟练的应用数据平台处理大数据。

  还有更多详细内容,尽在课课家教育,我们期待您的咨询!

赞(0)
踩(0)
分享到:
华为认证网络工程师 HCIE直播课视频教程