下载安卓APP箭头
箭头给我发消息

客服QQ:3315713922

BigQuery谷歌企业级大数据分析平台初体验的讲解

作者:课课家     来源: www.kokojia.com点击数:1499发布时间: 2015-10-30 17:34:56

标签: 大数据视频教程大数据应用数据

在众多学习中,文章也许不起眼,但是重要的下面我们就来讲解一下!!

作者将在本文中介绍一些BigQuery的基本情况,并结合Paras Doshi最近撰写的关于BigQuery的一些使用体会,对BigQuery来一个深入了解。
什么是BigQuery ?Oracle培训
BigQuery是真正为大数据而生的企业级云计算产品,其核心是云平的一项基础服务(PaaS),用于对TB级别的大数据进行实时的分析处理。
单纯从技术上来看,BigQuery就是一个在云端的SQL服务(类SQL),提供对海量数据的实时分析;据Google工程师所说,其处理5个TB数据,15秒即可返回结果。
另外,BigQuery是一项付费服务,旨在企业需要大规模数据分析,又无需承担硬件设备的投资的情况下开展大数据业务。每月每1GB数据的存储费用是12美分;oracle视频教程实时分析服务每月每处理1GB数据收费3.5美分,每月前100GB的实时数据分析免费。

Google BigQuery价格表
详细价格表请参考:https://developers.google.com/bigquery/docs/pricing
BigQuery初体验——快!
Paras Doshi在博客中写到他对BigQuery做了一个简单的测试,在一个具有115000000行数据的实例中分别使用max、mean、avg等进行查询(或计算),BigQuery都会在几秒内返回结果;并且其中一些包含相对比较复杂的查询,比如where、joins或group by。
事实上,查询所返回结果的效率还取决于查询的类型和SQL语句的效率,但无论如何,结果总是以超乎想象的速度返回。
关于数据源支持——悲催!oracle教程

趋势一:数据的资源化
何为资源化,是指大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。因而,企业必须要提前制定大数据营销战略计划,抢占市场先机。
趋势二:与云计算的深度结合
大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。自2013年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者关系将更为密切。除此之外,物联网、移动互联网等新兴计算形态,也将一齐助力大数据革命,让大数据营销发挥出更大的影响力。
趋势三:科学理论的突破
随着大数据的快速发展,就像计算机和互联网一样,大数据很有可能是新一轮的技术革命。随之兴起的数据挖掘、机器学习和人工智能等相关技术,可能会改变数据世界里的很多算法和基础理论,实现科学技术上的突破。
趋势四:数据科学和数据联盟的成立
未来,数据科学将成为一门专门的学科,被越来越多的人所认知。各大高校将设立专门的数据科学类专业,也会催生一批与之相关的新的就业岗位。与此同时,基于数据这个基础平台,也将建立起跨领域的数据共享平台,之后,数据共享将扩展到企业层面,并且成为未来产业的核心一环。
趋势五:数据泄露泛滥
未来几年数据泄露事件的增长率也许会达到100%,除非数据在其源头就能够得到安全保障。可以说,在未来,每个财富500强企业都会面临数据攻击,无论他们是否已经做好安全防范。而所有企业,无论规模大小,都需要重新审视今天的安全定义。在财富500强企业中,超过50%将会设置首席信息安全官这一职位。企业需要从新的角度来确保自身以及客户数据,所有数据在创建之初便需要获得安全保障,而并非在数据保存的最后一个环节,仅仅加强后者的安全措施已被证明于事无补。


BigQuery很快,但还有一个问题,如何将TB级的大数据上传到Google云存储上面。当然,不只是Google,这也是每个基于大数据的云存储服务所面临的问题。
更现实的问题是,如果已经有数据在Amazon S3或微软的云存储上,这些数据是否可以供BigQuery调用来进行分析?
答案是,呃,还不行(这点Google做的没微软好,微软Azure上的Hadoop允许Amazon S3上的数据作为数据源)。甚至,如果你有数据在GAE上,你也需要单独的将数据上传到BigQuery,至少目前是这样。
另外一个悲催的地方在于,BigQuery也无法支持Hadoop高级安装(比如adoop on Azure或Amazon elastic MapReduce)。
还有就是,BigQuery只支持CSV格式。当我们谈论大数据时,我们总是把VaRIAbility(数据多样化)当成最重要的一点来讨论,很显然,BigQuery所支持的数据类型还不够多样,或者说,非常单一。
总结
从篇幅上看,貌似BigQuery的缺点多于优点。但从大数据的处理能力上来看,其TB级数据查询结果秒出的效率还是让人惊叹的。oracle数据库教程
另外,更重要的一点是,低门槛和低成本。使用类SQL语言进行数据分析,花上几美元就得到Google服务器集群的性能,这些都大大降低了大数据业务的成本。至少你有一种廉价的方案来回答《关于大数据 CEO们需要了解的五个问题》一文中老板们关于大数据成本的担忧。
还有一点是关于数据上传这个老大难问题。Paras Doshi在测试中使用了350GB的CSV数据文件(分成10GB每个)上传到BigQuery,用时几个小时(感叹米国的大水管),这说明从本地集群到Google云进行数据的迁移也不需要多少耐心,我们已经习惯在下班时间上传大数据,不是嘛?
更多视频课程文章的课程,可到课课家官网查看。我在等你哟!!!

赞(118)
踩(3)
分享到:
华为认证网络工程师 HCIE直播课视频教程