下载安卓APP箭头
箭头给我发消息

客服QQ:3315713922

伟大的大数据Lambdas

作者:课课家教育     来源: http://www.kokojia.com点击数:694发布时间: 2017-10-13 16:00:58

标签: 安全储存大数据

  欢迎大家阅读本文章,本文章是一篇关于大数据Lambdas的文章。这篇文章会给大家带来一些关于安全和大数据相关知识详解,希望本篇文章能帮助到你,对你有所收获,让我们开始学习吧,课课家提醒您:大家仔细阅读文章。课课家教育提醒您:要认真好好阅读哦~~

  今天的基础架构正变得越来越智慧——很快人工智能技术就会告诉我们如何实现基础架构的自我生命周期管理。我甚至认为这些人工智能(AI)厂商会在一夜间宣称实现了基于AI技术的基础架构。

  今天的我们尤其渴望智能化、更进一步的自动化和自我优化的基础架构——尤其在存储方面——但我不认为存储基础架构会在未来某个时刻实现人机对话功能。当然,存储肯定会以更加实际的方式变得智能化,并且这些变化正在诸如数据中心存储体系架构中逐步发生着。

  我欣喜地看到存储发展趋势中所融入的嵌入式机器学习算法,旨在进行关键优化、分类、搜索和模式检测任务。企业数据资产正在不断增长,而与之对应的大数据收集和分析的潜在价值亦是如此。

  你很难用人工方式挖掘出其中蕴含的价值。随着即将爆发的万物互联(IoT),数据挖掘中将大幅增加高速的数据流传输、实时的设备数据生成,并混合业务运营过程中的交易型数据。

伟大的大数据Lambdas_安全_储存_大数据_课课家教育

  要让我们利用好这些潜在的信息资源,存储厂商已经开始将智能化算法融入到存储层中。通过在数据存储层中整合分析型的处理流程,我们今天可以轻松处理现有的海量信息,并为企业的业务部门提供近乎实时的信息反馈。

  数据中心存储体系架构正呈现出某些趋势,使得智能化进展更为迅猛。

  Lambda体系架构

  一般来说,作为处理日益增多的数据流、流水化信息和面向事件的数据,无服务器,由事件触发的计算服务(例如Amazon Web Services Lambda)变得越来越普及和流行。其中的核心理念就如同是结构化数据库中长期支持的存储过程,或用户自定义函数。

  你现在可以直接在全新的、通用型的数据存储中放置、执行由事件驱动的功能编程。例如,自定义计算功能可以在数据被持续访问时将其放置到较低延迟的存储层,并把老化的数据迁移到较慢的存储层。

  此外,应用程序与分析计算的融合伴随着大数据同步发展,在此之中存储得以实现横向扩展(例如Hadoop分布式文件系统),而计算亦以节点方式分配到每一块数据。随着内存数据网格使用的增长和全新“通用型”大数据数据库(整合结构化与非结构化数据)的到来,这些都将有助于促成计算与存储的融合。

  容器式的存储操作系统

  供应商正将新的存储操作系统体系架构开发为容器中的应用,至少在内部实现中使用这种编码方式。这将是所谓软件定义世界大趋势中的一部分,同时也受到另一种理念的驱使,即计算资源最终会完全从底层的硬件中剥离,例如异构集群和动态的混合云。

  适合的容器式存储服务可以轻松集成,供最终用户使用,或与第三方应用结合实现存储主机内的某些功能。用于存储的容器体系架构能够按需执行微服务,从而快速响应并动态扩展支持上述Lambda架构所需。

  大数据与高级分析

  上个世纪中,机器学习通常发生在封闭的环境中,基于历史(离线的)数据集合,使用纵向扩展环境中的算法。而今天,大数据经过十年的发展,我们现在拥有易于使用的机器学习算法库,并为分布式(即并行)的横向扩展应用做好准备,支持日益扩大的存储卷和数据类型。

  数据流解决方案

  伴随着物联网的出现,我们看到数据中心存储体系架构中所出现的全新的海量数据,其需要以数据流的方式,不间断地进行处理。由于需要实时、并行而高级的内容信息分析来进行处理,而非单纯的传统交易型业务操作,这大大推动了上述发展。

  技术的突飞猛进

  尽管计算和存储不再像过去那样依赖于硬件,但数据中心存储架构的持续发展将有助于实现超级智能存储。每个月我们都会听到有关内存密度增加、闪存部署和转型,以及新的基于非易失性存储架构的新闻,更强大的处理器、更高的GPU利用率,甚至出现服务大数据应用的定制化可编程阵列(FPGA)。

  当然,我们亦不应忘记近期出现的持续内存(Persistent Memory)。

当然,我们亦不应忘记近期出现的持续内存(Persistent Memory)。

  综合考虑这些发展,我们很容易看到存储市场是如何得到快速增长,并实现高度智能化的。当然,随着越来越多的功能的整合,有人开始认为它已不再仅仅是存储,这暂且另当别论。现在,存储再次成为数据中心内最有趣的领域。

  当然,新的智能化将增强传统的数据管理任务,实现信息的全生命周期管理,也可以在另一些方面增强企业存储数据的能力,例如:

  社交推荐

  本地存储检索

  高级信息安全

  数据转换(如转码、翻译)

  数据获取时分类排序

  自动化商业智能分析

  机器学习已经可以在数据中心的各个层级中实现:应用程序、增强管理,甚至嵌入在设备中。IT基础架构变得日益智能,其智能化规模和发展速度我们才刚得以一窥。与此同时,我们大部分数据所在的存储中蕴藏着机器学习所需要的一切。虽然存储不会随着时间超越人类的思维认知,但它确实会以更聪明的方式行事。

  现在,已经开始寻求智能化IT基础架构方案的IT人士将会面对更好的未来。

  小知识:

  据采集

  定义:利用多种轻型数据库来接收发自客户端的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。

  特点和挑战:并发系数高。

  使用的产品:MySQLOracle,HBase,Redis和 MongoDB等,并且这些产品的特点各不相同。

  统计分析

  大数据定义:将海量的来自前端的数据快速导入到一个集中的大型分布式数据库 或者分布式存储集群,利用分布式技术来对存储于其内的集中的海量数据 进行普通的查询和分类汇总等,以此满足大多数常见的分析需求。

大数据定义:将海量的来自前端的数据快速导入到一个集中的大型分布式数据库 或者分布式存储集群,利用分布式技术来对存储于其内的集中的海量数据 进行普通的查询和分类汇总等,以此满足大多数常见的分析需求。

  特点和挑战:导入数据量大,查询涉及的数据量大,查询请求多。

  使用的产品:InfoBright,Hadoop(Pig和Hive),YunTable, SAP Hana和Oracle Exadata,除Hadoop以做离线分析为主之外,其他产品可做实时分析。

  挖掘数据

  定义:基于前面的查询数据进行数据挖掘,来满足高级别 的数据分析需求。

  特点和挑战:算法复杂,并且计算涉及的数据量和计算量都大。

  Hadoop

  Hadoop旨在通过一个高度可扩展的分布式批量处理系统,对大型数据集进行扫描,以产生其结果。Hadoop项目包括三部分,分别是Hadoop Distributed File System(HDFS)、HadoopMapReduce编程模型,以及Hadoop Common。

  流定义

  从技术角度而言,流是通过边缘连接的节点图。图中的每个节点都是“运算符”或“适配器”,均能够在某种程度上处理流内的数据。

  节点可以不包含输入和输出,也可以包含多个输入和输出。一个节点的输出与另外一个或多个节点的输入相互连接。

  图形的边缘将这些节点紧密联系在一起,表示在运算符之间移动的数据流。

  Hadoop平台对于操作非常大型的数据集而言可以说是一个强大的工具。为了抽象Hadoop编程模型的一些复杂性,已经出现了多个在Hadoop之上运行的应用开发语言。

  Pig、Hive和Jaql是其中的代表。而除了java外,您还能够以其他语言编写map和reduce函数,并使用称为Hadoop Streaming(简写为Streaming)的API调用它们。

  小结:

  大家是否学到许多知识呢,请同学们下去在好好复习关于这方面的知识,要是您还有什么问题,课课家平台,随时为您服务,关于更多的知识,后面还有很多关于类似的文章,期待大家的到来哦~

赞(0)
踩(0)
分享到:
华为认证网络工程师 HCIE直播课视频教程