MySQL数据库工程师入门实战课程视频教程
4208 人在学
作为全球性的商务平台和支付行业领先者,eBay拥有海量的用户行为数据。基于现有的Hadoop大数据处理,已经不能够满足业务上对实时性的需求。基于过去的大数据处理的经验和对最新技术的运用,探索出一个对海量的数据流进行实时的收集,处理,分发和分析的平台。并于2015年2月底开源一个平台:Pulsar。
Pulsar作为一个复杂事件处理平台,具有快速,准确,灵活的特性,保证点到点的低延时和高可靠,从而很好得满足了的eBay秒级实时数据分析的需求。同时每秒百万级流量处理能力,给客户带来更好的个性化体验,帮助客户监控实时业务信息并定制实时营销策路,及时监测网络欺诈行为并减少机器人干预。并且Pulsar是基于标准的分布式云架构部署并跨越多个数据中心,从而保证了在系统升级和拓扑更新时没有集群停机时间。
一、eBay的数据量
作为电子商务领头羊的eBay公司,数据量究竟有多大?eWeek的报道中,eBay的存储主管PaulStrong对数据量做了一些介绍,这些数据可以作为参考。
1.站点处理能力
A.平均每天的PV超过10亿
B.每秒钟交易大约1700美元的商品
C.每分钟卖出一辆车
D.每秒钟卖出一件汽车饰品或者配件
E.每两分钟卖出一件钻石首饰
F.6亿商品,2亿多注册用户
G.超过130万人把在eBay上做生意看作是生活的一部分
在这样高的压力下,可靠性达到了99.94%,也就是说每年只有5个小时多一点的时间服务不可用。从业界消息来看,核心业务的可用性要比这个还要高。
数据存储工程组控制着eBay的2PB(1Petabyte=1000Terabytes)可用空间。这是一个什么概念,对比一下Google的存储就知道了。每周就要分配10T数据出去,稍微算一下,一分钟大约使用1G的数据空间。
2.计算能力
eBay使用一套传统的网格计算系统。该系统的一些特征数据:
A.170台Win2000/Win2003服务器;、
B.170台Linux(RHES3)服务器;、
C.三个Solaris服务器:
为QA构建与部署eBay.com;、
编译优化java/C++以及其他Web元素;、
D.Build整个站点的时间:
过去是10个小时,现在是30分钟;、
E.在过去的2年半,有200万次Build,很可怕的数字
3.存储硬件与软件
每个供货商都必须通过严格的测试才有被选中的可能,这些厂家或产品如下:
A.交换机:Brocade
B.网管软件:IBMTivoli
C.NAS:Netapp(占总数据量的5%,2P*0.05,大约100T)
D.阵列存储:HDS(95%,EMC在eBay是出局者)
E.负载均衡与Failover:Resonate
F.搜索功能:Thunderstoneindexingsystem
G.数据库软件:Oracle,大多数DB都有4份拷贝
H.数据库服务器:SunE10000
I.数据备份:SharePlex,购买的全球Licence用于数据复制
4.架构
对于eBay这样超大规模的站点来说,瓶颈往往最容易在数据库服务器上产生,必定有一部分数据(比如交易记录这样不容易水平分割的数据)容易带来大量的读操作,而不管用什么存储,能承担的IO能力是有限的。所以,如果有效的分散IO的承载能力就是一个很有意义的事情。
经过互联网考古学不断挖掘,路路续续又现了一些蛛丝马迹能够多少说明一些问题。客观事实加上主观想象,简单的描述一下。见下图:
通过Quest公司的SharePlex近乎实时的复制数据到其他数据库节点,F5通过特定的模块检查数据库状态,并进行负载均衡,IO成功的做到了分布,读写分离,而且极大的提高了可用性。F5真是一家很有创新性的公司,虽然从这个案例来说,技术并无高深之处,但方法巧妙,整个方案浑然一体。
F5公司专门为Oracle9i数据库开发了专用的健康检查模块,通过调用F5专有的扩展应用校验(EAV)进程,F5能够随时得到Oracle9i数据库的应用层服务能力而不是其他的负载均衡设备所采用的ICMP/TCP层进行健康检查。
当然,这个技术架构可不算便宜。Quest的SharePlexLicense很贵,而且,对于每个结点来说,都需要数据库License与硬件费用。但优点也很多:节省了维护成本;数据库层面的访问也能做到SOA;高可用性。
国内的一些厂商比较喜欢给客户推存储级别的解决方案。通过存储底层复制来解决数据分布以及灾备问题。这个思路似乎太传统了,对于互联网企业来说多少有点过时。
小编结语:
更多内容尽在课课家教育!