下载安卓APP箭头
箭头给我发消息

客服QQ:3315713922

eBay数据库

作者:课课家教育     来源: http://www.kokojia.com点击数:892发布时间: 2017-08-23 09:30:10

标签: 数据库eBay数据库数据库架构

  作为全球性的商务平台和支付行业领先者,eBay拥有海量的用户行为数据。基于现有的Hadoop大数据处理,已经不能够满足业务上对实时性的需求。基于过去的大数据处理的经验和对最新技术的运用,探索出一个对海量的数据流进行实时的收集,处理,分发和分析的平台。并于2015年2月底开源一个平台:Pulsar。

  Pulsar作为一个复杂事件处理平台,具有快速,准确,灵活的特性,保证点到点的低延时和高可靠,从而很好得满足了的eBay秒级实时数据分析的需求。同时每秒百万级流量处理能力,给客户带来更好的个性化体验,帮助客户监控实时业务信息并定制实时营销策路,及时监测网络欺诈行为并减少机器人干预。并且Pulsar是基于标准的分布式云架构部署并跨越多个数据中心,从而保证了在系统升级和拓扑更新时没有集群停机时间。

  Pulsar作为一个复杂事件处理平台,具有快速,准确,灵活的特性,保证点到点的低延时和高可靠,从而很好得满足了的eBay秒级实时数据分析的需求。同时每秒百万级流量处理能力,给客户带来更好的个性化体验,帮助客户监控实时业务信息并定制实时营销策路,及时监测网络欺诈行为并减少机器人干预。并且Pulsar是基于标准的分布式云架构部署并跨越多个数据中心,从而保证了在系统升级和拓扑更新时没有集群停机时间。

  一、eBay的数据量

  作为电子商务领头羊的eBay公司,数据量究竟有多大?eWeek的报道中,eBay的存储主管PaulStrong对数据量做了一些介绍,这些数据可以作为参考。

  1.站点处理能力

  A.平均每天的PV超过10亿

  B.每秒钟交易大约1700美元的商品

  C.每分钟卖出一辆车

  D.每秒钟卖出一件汽车饰品或者配件

  E.每两分钟卖出一件钻石首饰

  F.6亿商品,2亿多注册用户

  G.超过130万人把在eBay上做生意看作是生活的一部分

  在这样高的压力下,可靠性达到了99.94%,也就是说每年只有5个小时多一点的时间服务不可用。从业界消息来看,核心业务的可用性要比这个还要高。

  数据存储工程组控制着eBay的2PB(1Petabyte=1000Terabytes)可用空间。这是一个什么概念,对比一下Google的存储就知道了。每周就要分配10T数据出去,稍微算一下,一分钟大约使用1G的数据空间。

  2.计算能力

  eBay使用一套传统的网格计算系统。该系统的一些特征数据:

  A.170台Win2000/Win2003服务器;、

  B.170台Linux(RHES3)服务器;、

  C.三个Solaris服务器:

  为QA构建与部署eBay.com;、

  编译优化java/C++以及其他Web元素;、

  D.Build整个站点的时间:

  过去是10个小时,现在是30分钟;、

  E.在过去的2年半,有200万次Build,很可怕的数字

  3.存储硬件与软件

  每个供货商都必须通过严格的测试才有被选中的可能,这些厂家或产品如下:

  A.交换机:Brocade

  B.网管软件:IBMTivoli

  C.NAS:Netapp(占总数据量的5%,2P*0.05,大约100T)

  D.阵列存储:HDS(95%,EMC在eBay是出局者)

  E.负载均衡与Failover:Resonate

  F.搜索功能:Thunderstoneindexingsystem

  G.数据库软件:Oracle,大多数DB都有4份拷贝

  H.数据库服务器:SunE10000

  I.数据备份:SharePlex,购买的全球Licence用于数据复制

  4.架构

  对于eBay这样超大规模的站点来说,瓶颈往往最容易在数据库服务器上产生,必定有一部分数据(比如交易记录这样不容易水平分割的数据)容易带来大量的读操作,而不管用什么存储,能承担的IO能力是有限的。所以,如果有效的分散IO的承载能力就是一个很有意义的事情。

  经过互联网考古学不断挖掘,路路续续又现了一些蛛丝马迹能够多少说明一些问题。客观事实加上主观想象,简单的描述一下。见下图:

 4.架构    对于eBay这样超大规模的站点来说,瓶颈往往最容易在数据库服务器上产生,必定有一部分数据(比如交易记录这样不容易水平分割的数据)容易带来大量的读操作,而不管用什么存储,能承担的IO能力是有限的。所以,如果有效的分散IO的承载能力就是一个很有意义的事情。    经过互联网考古学不断挖掘,路路续续又现了一些蛛丝马迹能够多少说明一些问题。客观事实加上主观想象,简单的描述一下。见下图:

  通过Quest公司的SharePlex近乎实时的复制数据到其他数据库节点,F5通过特定的模块检查数据库状态,并进行负载均衡,IO成功的做到了分布,读写分离,而且极大的提高了可用性。F5真是一家很有创新性的公司,虽然从这个案例来说,技术并无高深之处,但方法巧妙,整个方案浑然一体。

  F5公司专门为Oracle9i数据库开发了专用的健康检查模块,通过调用F5专有的扩展应用校验(EAV)进程,F5能够随时得到Oracle9i数据库的应用层服务能力而不是其他的负载均衡设备所采用的ICMP/TCP层进行健康检查。

  当然,这个技术架构可不算便宜。Quest的SharePlexLicense很贵,而且,对于每个结点来说,都需要数据库License与硬件费用。但优点也很多:节省了维护成本;数据库层面的访问也能做到SOA;高可用性。

  国内的一些厂商比较喜欢给客户推存储级别的解决方案。通过存储底层复制来解决数据分布以及灾备问题。这个思路似乎太传统了,对于互联网企业来说多少有点过时。

  小编结语:

  更多内容尽在课课家教育!

赞(23)
踩(0)
分享到:
上一篇:SQLite基础知识
华为认证网络工程师 HCIE直播课视频教程