大数据时代发展前景分析详解

作者：课课家教育来源： http://www.kokojia.com点击数：854发布时间： 2017-06-19 08:00:39

　　最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡，麦肯锡称：“数据，已经渗透到当今每一个行业和业务职能领域，成为重要的生产因素。人们对于海量数据的挖掘和运用，预示着新一波生产率增长和消费者盈余浪潮的到来。”“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日，却因为近年来互联网和信息行业的发展而引起人们关注。

　　随着对不同类型、不同体量数据的结构化存储、批量处理以及价值挖掘需求的增多，2016年注定是大数据里程碑式的一年。

　　2017年，支持大量结构化和非结构化数据的系统将继续增长。市场需要数据平台来帮助数据管理人员管理和保护大数据，同时允许最终用户进行数据分析。这些系统将逐步成熟，在企业内部的IT系统中更好地运行。

　　大数据

　　1、数据处理变得更加快速，数据也变得更加易于使用

　　选项扩展将加速Hadoop

　　当然，你可以在Hadoop上执行机器学习和情绪分析，但人们常常会问的第一个问题是：交互式SQL(结构化查询语言，一种数据库查询和程序设计语言，用于存取数据以及查询、更新和管理关系数据库系统)究竟有多快?毕竟，SQL相当于企业用户的“导管”——他们希望使用Hadoop数据来更快的获得可复用的BI仪表盘(一种向企业展示度量信息和关键业务指标即KPI现状的数据虚拟化工具)，或者是进行一些探索性分析。

　　这种对速度的需求促使用户采用访问速度更快和执行效率更高的数据库，如Exasol、MemSQL，或者是类似于Kudu这种基于Hadoop的商店，当然还需要能够更快查询数据的技术。诸如SQL-on-Hadoop引擎(ApacheImpala，HiveLLAP，Presto，Phoenix和Drill)和OLAP-on-Hadoop技术(AtScale，JethroData和KyvosInsights)这样的数据查询加速器将进一步模糊传统数据库与大数据世界的边界。

　　2、大数据不再只是Hadoop

　　专门基于Hadoop开发的工具已过时

　　在过去的几年中，随着大数据浪潮来袭，数种为了满足Hadoop分析需求的技术兴起。但是，身处复杂，异构环境中的企业不再希望仅为一个数据源(Hadoop)采用孤立的BI访问点。他们需要的答案被埋没在一大堆数据源中，从记录系统到云端，再到来自Hadoop和非Hadoop源的结构化和非结构化数据。(顺便说一句，甚至连关系型数据库也正在为大数据趋势做准备。例如，SQLServer2016于近日添加了JSON支持)。

　　在2017年，客户将会需要对所有数据都进行分析。不依赖于数据源的平台将会茁壮成长，而专为Hadoop而设计的平台和未能跨应用部署的平台将被弃用。Platfora的退出便是这一趋势的预示。

　　3、相关组织将利用数据湖(DataLake)来实现价值

　　数据湖就像一个人造水库

　　数据湖就像一个人造水库。首先你要建造一个水坝(构建一个集群)，然后填满水(数据)。一旦建立了湖泊，你将开始因为各种目的而使用这些水资源(数据)，如发电，饮用以及各种消遣(预测分析，机器学习，网络安全等)。

　　而今，保有数据湖里的数据已经变成了一种为了保留而保留的行为。在2017年，这将随着Hadoop业务的收紧而改变。各个组织要求可重复的并且敏捷地使用数据湖，以便更快地获得响应。在确定对人事、数据和基础设施的相应投资之前，企业会更加慎重的考虑业务成果。这将促进业务和IT之间的强力耦合。而自助服务平台作为分析大数据资产的工具将获得更深入的认可。

　　另外，公司还将关注业务驱动型应用，避免数据湖陷入困境。在2017年，企业机构将从“构建未来”的数据湖应用转向业务驱动型数据应用。当今世界需要分析和操作能力去触及客户、处理索赔并且连接到个体的不同设备。

　　举例而言，任何商业网站需要提供实时的个性化推荐和价格查询。医疗健康型企业必须处理有效的索赔并且运用分析运营系统来防止索赔欺诈。媒体公司需要通过机顶盒提供个性化的内容。汽车制造商和汽车共享公司则要交互运营其车辆和司机。这些案例的实施交付均需要由一个敏捷平台来实现，同时提供分析和运营的处理，跨越后台分析和前台运营进行整合，提升了商业价值。

　　4、成熟的架构拒绝通用型框架

　　Hadoop不再只是一个用于数据科学用例的批处理平台

　　Hadoop不再只是一个用于数据科学用例的批处理平台。它已经成为一种专为特殊分析而架设的多用途分析引擎，甚至被用于日常工作负载的操作报告——传统上这项任务是由数据仓库(大量数据提取和分析的工具)来处理的。

　　在2017年，各个组织将通过特定的用例的架构设计来满足现存的混合需求。他们将研究一系列的因素，包括用户角色模型、访问频率、数据速度和聚合级别等，然后才能提交合适的数据策略。这些现代化的参考架构由需求驱动，他们将以某种方式将最好的自助服务数据准备工具Hadoop核心和最终用户分析平台结合起来，以便可以根据这些需求进行重新配置。这些架构的灵活性将最终推动技术选择。

　　5、推动大数据投资的是数据的多样性，而不是体量和速

　　Gartner将大数据定义为“三高”

　　Gartner将大数据定义为“三高”：高容量，高速率，高品类的信息资产。正如NewVantagePartners最近的一项调查结果所示：虽然三个特性都在凸显，但其中，多元化无疑正成为大数据投资的主导推动力。

　　随着企业寻求整合更多来源并关注大数据的“长尾”，这一趋势将更加明显。从自由模式的JSON到嵌入式的数据库(如关系数据库和非关系数据库)，到非平面数据(如Avro，Parquet，XML)，数据格式正在成倍增长，连接器变得至关重要，它将不同格式的数据变成统一的表达/它让不同格式的数据之间实现互通。在2017年，为零散的、不同的资源提供即时连接的能力，将成为评估一个平台能力的重要方面。

　　6、Spark和机器学习打通大数据的任督二脉

　　ApacheSpark曾是Hadoop生态系统的一个组件，现在正成为大数据平台企业的首选。

6、Spark和机器学习打通大数据的任督二脉　　ApacheSpark曾是Hadoop生态系统的一个组件，现在正成为大数据平台企业的首选。

　　在对数据架构师、IT经理和BI分析师的调查中，近70%的受访者表示，现有的MapReduce里边最青睐Spark，它是批量导向的并行处理，但不适合交互式应用程序或实时流处理。

　　这些以大数据为基础的超级计算能力为计算密集型的平台提供了极大的助力，如：机器学习(ML)、人工智能(AI)、图形算法等。尤其对于MicrosoftAzure机器学习，由于上述计算能力也完全适用于初学者，并能迅速集成到现有的Microsoft平台。向大众开放机器学习将有助于创建更多的模型和应用程序来生成PB级数据。随着机器学习和系统日益智能化，自助服务软件提供商们是时候要挖掘一下大数据的力量如何变现到最终用户身上。

　　7、物联网、云服务和大数据集结起来便是自助服务的新机遇

　　在2017年，似乎一切都将有一个传感器把信息送回主体

　　IoT正在生成大量的结构化和非结构化数据，而且越来越多的数据部署在云服务上。数据通常是异构的，并且存在于多个关系和非关系系统中，如Hadoop集群、非关系数据库等。

　　虽然存储和管理服务的创新加快了数据获取的步伐、进程程，但访问和理解数据本身仍然是棘手的“最后一米”。因此，对于无缝连接和组合各种云托管数据源的分析工具的需求正在增长。这样的工具使企业实现了大数据库的即时调取和可视化管理，，从而帮助物联网投资者挖掘隐藏的机会。

　　Hadoop大数据技术案例

　　让Hadoop和其他大数据技术如此引人注目的部分原因是，他们让企业找到问题的答案，而在此之前他们甚至不知道问题是什么。包括谷歌，Facebook、LinkedIn还在内的诸多巨头，都在帮助Hadoop改善运营效率。具体包括包括：

　　情感分析：Hadoop与先进的文本分析工具结合，分析社会化媒体和社交网络发布的非结构化的文本，包括Tweets和Facebook，以确定用户对特定公司，品牌或产品的情绪。分析既可以专注于宏观层面的情绪，也可以细分到个人用户的情绪。

　　风险建模：财务公司、银行等公司使用Hadoop和下一代数据仓库分析大量交易数据，以确定金融资产的风险，模拟市场行为为潜在的“假设”方案做准备，并根据风险为潜在客户打分。

　　欺诈检测：金融公司、零售商等使用大数据技术将客户行为与历史交易数据结合来检测欺诈行为。例如，信用卡公司使用大数据技术识别可能的被盗卡的交易行为。

　　客户流失分析：企业使用Hadoop和大数据技术分析客户行为数据并确定分析模型，该模型指出哪些客户最有可能流向存在竞争关系的供应商或服务商。企业就能采取最有效的措施挽留欲流失客户。

　　用户体验分析：面向消费者的企业使用Hadoop和其他大数据技术将之前单一客户互动渠道(如呼叫中心，网上聊天，微博等)数据整合在一起，以获得对客户体验的完整视图。这使企业能够了解客户交互渠道之间的相互影响，从而优化整个客户生命周期的用户体验。

　　8、在最终用户驱动下，自助数据预处理走向主流

　　Hadoop数据如何走进企业用户，是当下最大的挑战之一。

　　Hadoop数据如何走进企业用户，是当下最大的挑战之一。自助服务分析平台的兴起改善了这一过程。但企业用户希望进一步简化数据分析的流程，尤其在处理多种数据类型和格式时，这一诉求更加明显。

　　敏捷的自助服务数据预处理工具不仅可以在源处预处理Hadoop数据，而且还使数据作为快照来用，从而进行简易便捷的进一步处理。

　　我们已经看到了的一大批面向终端用户的大数据预处理创新，Alteryx、Trifacta和Paxata。这些工具降低了后期Hadoop采用者和初学者的进入门槛，并将在2017年体现更大价值。

　　9、大数据成长：Hadoop增加了企业标准

　　Hadoop将逐渐成为企业IT环境的核心部分。

　　Hadoop将逐渐成为企业IT环境的核心部分。在2017年，我们将看到围绕企业系统的安全、管理成为投资热地的更多投资。ApacheSentry提供了一个系统，在这个系统中，我们可以强制对元数据进行细致的、按需分配的授权。

　　作为数据管理的一项重大创举，ApacheAtlas，让企业可以在繁杂的数据生态系统中实行统一的数据分类。ApacheRanger为Hadoop提供集中式安全管理。

　　客户开始期望从企业级RDBMS平台获得这些类型的功能。这些功能走在新兴大数据技术的前沿，从而消除了企业关于技术迭代而被淘汰方面的担忧。

　　Hadoop对数据进行细致管理、按需分配的实例

　　Last.fm创建于2002年，是提供网络电台和音乐服务的社交网络。每个月有2500万人使用，产生大量数据。2006年初，Last.fm开始使用Hadoop。Hadoop是Last.fm基础平台的关键组件，有2个Hadoop集群，运行数百种各种日常作业，包括日志文件分析，A/B测试评测，即时处理和图表生成。

　　图表生成：图表生成是Hadoop在Last.fm的第一个应用。

　　数据从哪里来：Last.fm有两种收听信息：用户播放自己的音乐，如pc或者其他设备mp3，这种信息通过Last.fm的客户端或者第三方应用发送到Last.fm，这一类叫scrobble收藏数据;用户收听Last.fm网络电台的节目，以及听节目时候的喜爱，跳过，禁止等操作信息，这一类叫radiolisten电台收听数据。

　　数据存储：收听数据被发送到Last.fm，经历验证和转换，形成一系列有空格分隔的文本文件，包含用户id-userid，音乐id-trackid，这首音乐被收藏的次数scrobble，这首音乐在电台中收听的次数radio，被跳过的次数skip。真实数据达到GB级别，有更多属性字段。

　　数据处理：

　　UniqueListeners作业：统计收听某一首歌的不同用户数，也就说说，有多少个用户听过某个歌，如果用户重复收听，只算一次。

　　Sum作业：每首歌的收听总数，收藏总数，电台收听总数，被跳过的总数。

　　合作作业：每首歌被多少用户收听总数，收听总数，收藏总数，电台收听总数，被跳过的总数等。

　　最后，这些数据会被作为周排行榜等在Last.fm主站上显示出来。

　　10、元数据目录的建立帮助筛选出具有分析价值的数据

　　很长一段时间以来，公司抛弃了数据，因为他们认为海量的数据处理起来确实无从下手。

　　很长一段时间以来，公司抛弃了数据，因为他们认为海量的数据处理起来确实无从下手。用Hadoop当然也可以处理大量的数据，但是这些数据仍然没有一个清晰的分类、易追溯的架构。

　　元数据目录可以帮助用户发现和理解哪些数据需要使用自助服务工具进行分析。客户的这种需求正被Alation和Waterline这样的公司填补，它们使用机器学习来自动筛选Hadoop需要分析的数据：

　　如，使用标签对文件进行编目，标明数据资产之间的关联，必要时还会提供搜索UI给出的查询建议。这大大缩短了数据使用者和管理者取得信任、查找以及准确查询数据的时间。在2017年，作为自助服务的自然延伸，我们将看到更多企业意识到自助分析的重要性，以及对其迫切的需求。

　　现在的社会是一个高速发展的社会，科技发达，信息流通，人们之间的交流越来越密切，生活也越来越方便，大数据就是这个高科技时代的产物。[3]

　　随着云时代的来临，大数据（Bigdata）也吸引了越来越多的关注。大数据（Bigdata）通常用来形容一个公司创造的大量非结构化和半结构化数据，这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起，因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。[2]

　　在现今的社会，大数据的应用越来越彰显他的优势，它占领的领域也越来越大，电子商务、O2O、物流配送等，各种利用大数据进行发展的领域正在协助企业不断地发展新业务，创新运营模式。有了大数据这个概念，对于消费者行为的判断，产品销售量的预测，精确的营销范围以及存货的补给已经得到全面的改善与优化。[4]

　　“大数据”在互联网行业指的是这样一种现象：互联网公司在日常运营中生成、累积的用户网络行为数据。这些数据的规模是如此庞大，以至于不能用G或T来衡量。

　　大数据到底有多大？一组名为“互联网上一天”的数据告诉我们，一天之中，互联网产生的全部内容可以刻满1.68亿张DVD；发出的邮件有2940亿封之多（相当于美国两年的纸质信件数量）；发出的社区帖子达200万个（相当于《时代》杂志770年的文字量）；卖出的手机为37.8万台，高于全球每天出生的婴儿数量37.1万……[1]

　　截止到2012年，数据量已经从TB（1024GB=1TB）级别跃升到PB（1024TB=1PB）、EB（1024PB=1EB）乃至ZB(1024EB=1ZB)级别。国际数据公司（IDC）的研究结果表明，2008年全球产生的数据量为0.49ZB，2009年的数据量为0.8ZB，2010年增长为1.2ZB，2011年的数量更是高达1.82ZB，相当于全球每人产生200GB以上的数据。而到2012年为止，人类生产的所有印刷材料的数据量是200PB，全人类历史上说过的所有话的数据量大约是5EB。IBM的研究称，整个人类文明所获得的全部数据中，有90%是过去两年内产生的。

　　而到了2020年，全世界所产生的数据规模将达到今天的44倍。[5]每一天，全世界会上传超过5亿张图片，每分钟就有20小时时长的视频被分享。然而，即使是人们每天创造的全部信息——包括语音通话、电子邮件和信息在内的各种通信，以及上传的全部图片、视频与音乐，其信息量也无法匹及每一天所创造出的关于人们自身的数字信息量。

　　更多详细内容，尽在课课家教育，我们期待您的咨询！

踩(0)

分享到：

上一篇：启用大数据项目须看中的五大要点！

下一篇：Linux下安装Oracle11g服务器的注意事项和方法