下载安卓APP箭头
箭头给我发消息

客服QQ:3315713922

不要让经典改变

作者:课课家教育     来源: http://www.kokojia.com点击数:850发布时间: 2017-10-23 16:00:36

标签: big dataHadoop大数据大数据工具数据库

  大家好今天要发的是不要让Hadoop成为Had oops!的一篇文章,分析先在Hadoop面临的技术问题。课课家教育平台提醒各位:本篇文章纯干货~因此大家一定要认真阅读本篇文章哦!

不要让经典改变_big data_Hadoop_大数据_大数据工具_数据库_课课家教育

  过去几年里,数据量的生成以每两年翻翻的速度增长,但企业的预算却没有相应增长。这意味着要更有创造性地通过更少的方式做更多的工作。这是一个持续且艰巨的挑战,我没有一劳永逸的解决方案,但我可以提供一些指导原则,让你以更好的姿态去面对挑战。

  IDC预测,到2020年,全球数据规模将达到44ZB,即44万亿GB,如果人们无法继续投资以扩大存储能力,可能在未来只有15%的数据能够找到地方加以存储。

  在今天的数据驱动型经济中,存储需求往往超出了计算资源的需求,这就导致IT基础设施无法均衡负载。客户添加越来越多的服务器用来扩展其大数据和分析功能,然而CPU资源却并未得到充分利用。这是因为大数据和分析工作通常是存储密集型,而不是计算密集型。因此,成功应对数据挑战的关键之一就是认识到基础设施所需的不同增长率,了解到什么会增长,以什么样的速度增长。

  为了应对持续增长的数据挑战,越来越多的公司创造了一系列技术和工具,用于摄取,传输,分析,存储,预测,剥离等。其结果呈现在你眼前,是一幅充满各种选择的巨大地图,并且这些选择并不都是平等的:有些是死胡同,有些会把你锁定到一个特定的供应商,而另一些只能应对今天的问题,更不要说明天或后天了。

  可悲的是,一些组织似乎认为,应对数据挑战非常简单 :“Just add Hadoop!”,然而直到他们拥有太多的Hadoop或Hadoop装在了错误的位置时,才意识到了问题所在。此外,把硬件和软件简单地投入到分析挑战中,就如同把汽油投入火中,它能烧得更旺,但也可能会烧到你。将技术应用于数据和分析问题时,通常包含着的复杂性。即使是Hadoop,也会面临多重挑战。

 可悲的是,一些组织似乎认为,应对数据挑战非常简单 :“Just add Hadoop!”,然而直到他们拥有太多的Hadoop或Hadoop装在了错误的位置时,才意识到了问题所在。此外,把硬件和软件简单地投入到分析挑战中,就如同把汽油投入火中,它能烧得更旺,但也可能会烧到你。将技术应用于数据和分析问题时,通常包含着的复杂性。即使是Hadoop,也会面临多重挑战。

  除了挑战之外,也有很多选择让你无从下手。 选择Hortonworks、Cloudera、MapR还是BigInsights Hadoop发行版? 是否使用诸如EMC Vblock / VxBlock之类的融合基础架构或超融合基础设施(如EMC VxRail和VxRack)?直连式存储(DAS)是否满足您的需求,还是应该将计算和存储分离,使用Isilon为你的数据湖横向扩展? 相信我,以上这些只是衡量使用Hadoop所需考虑的一部分因素。大象并不是你在丛林中唯一需要担心的, 了解技术的同时了解其对业务和IT的影响,对成功至关重要。

  对于以上这些挑战,一个有效解决方案是企业级的扩展存储解决方案,如EMC Isilon。在Isilon上运行Hadoop拥有以下几个优点。

对于以上这些挑战,一个有效解决方案是企业级的扩展存储解决方案,如EMC Isilon。在Isilon上运行Hadoop拥有以下几个优点。

  除了以上优势,Isilon还通过以下方式为客户带来好处:

  消除Hadoop NameNode维护的昂贵开销

  大大减少与处理磁盘故障相关的工作量

  通过消除Hadoop的典型3X数据复制,帮助管理分析存储增长的速度

  减少移动和分段数据的需要,使其可以访问Hadoop。

  Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务,因此它的成本比较低,任何人都可以使用。Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:

  高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

  高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

  高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

  高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

  低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

  Hadoop带有用java语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C++。

  对于许多客户而言,Isilon代表了可扩展性,可用性和性能的最佳平衡,同时降低了与Hadoop集群相关的运营开销。没有任何银弹能解决爆炸性数据增长所带来的所有问题,但是应用横向扩展存储技术往往有助于减轻痛苦。

  小结:相信最后大家阅读完毕本篇文章,肯定学到了不少知识吧?其实大家私下还得多多自学,当然如果大家还想了解更多方面的详细内容的话呢,不妨关注课课家教育平台,在这里你肯定会有意想不到的收获的!

赞(18)
踩(0)
分享到:
华为认证网络工程师 HCIE直播课视频教程