下载安卓APP箭头
箭头给我发消息

客服QQ:3315713922

10个出色的NoSQL数据库

作者:课课家教育     来源: http://www.kokojia.com点击数:630发布时间: 2017-08-20 09:00:52

标签: 数据库NoSQL数据库基础

  随着大数据的不断发展,非关系型的数据库现在成了一个极其热门的新领域,非关系数据库产品的发展非常迅速。现今的计算机体系结构在数据存储方面要有庞大的水平扩展性,而NoSQL也正是致力于改变这一现状。目前Google的BigTable和Amazon的Dynamo使用的就是NoSQL型数据库,据说现在已经有上百种NoSQL数据库了,下面来了解下常见的一些NoSQL数据库:

  先来看张表,了解下典型的NoSQL数据库的分类:

10个出色的NoSQL数据库_数据库_NoSQL_数据库基础_课课家教育

  1、Casssandra

Cassandra最初由Facebook开发,后来成了Apache开源项目,它是一个网络社交云计算方面理想的数据库。它集成了其他的流行工具如Solr,现在已经成为一个完全成熟的大型数据存储工具。Cassandra是一个混合型的非关系的数据库,类似于Google的BigTable。其主要功能比Dynomite(分布式的Key-Value存储系统)更丰富,但支持度却不如文档存储MongoDB。Cassandra的主要特点就是它不是一个数据库,而是由一堆数据库节点共同构成的一个分布式网络服务,对Cassandra的一个写操作,会被复制到其他节点上去,而对Cassandra的读操作,也会被路由到某个节点上面去读取。在最近的一次测试中,Netflix建立了一个288个节点的集群。

  Cassandra最初由Facebook开发,后来成了Apache开源项目,它是一个网络社交云计算方面理想的数据库。它集成了其他的流行工具如Solr,现在已经成为一个完全成熟的大型数据存储工具。Cassandra是一个混合型的非关系的数据库,类似于Google的BigTable。其主要功能比Dynomite(分布式的Key-Value存储系统)更丰富,但支持度却不如文档存储MongoDB。Cassandra的主要特点就是它不是一个数据库,而是由一堆数据库节点共同构成的一个分布式网络服务,对Cassandra的一个写操作,会被复制到其他节点上去,而对Cassandra的读操作,也会被路由到某个节点上面去读取。在最近的一次测试中,Netflix建立了一个288个节点的集群。

  2、Lucene/Solr

 Lucene是Apache软件基金会4jakarta项目组的一个子项目,这是一个开放源代码的全文检索引擎工具包,就是说它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构。不过大多数人并不认同Lucene是一个数据库,因为大多数人只是用它来检索大量的文本块,不过它的确采用了与其他NoSQL数据存储相似的模型。如果说查询并不是仅仅局限于精确的匹配,而是寻找出那些出现在块中的字或者字段的话,毫无疑问,Lucene/Solr是最好的查询方式。

  Lucene是Apache软件基金会4jakarta项目组的一个子项目,这是一个开放源代码的全文检索引擎工具包,就是说它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构。不过大多数人并不认同Lucene是一个数据库,因为大多数人只是用它来检索大量的文本块,不过它的确采用了与其他NoSQL数据存储相似的模型。如果说查询并不是仅仅局限于精确的匹配,而是寻找出那些出现在块中的字或者字段的话,毫无疑问,Lucene/Solr是最好的查询方式。

  3、Riak

Riak是由技术公司basho开发的一个类似Dynamo的分布式Key-Value系统。其以分布式,水平扩展性,高容错性等特点著称。从事Riak工作最有趣的部分是可以使用javascript或者Erlang来做Map/Reduce查询,它们会查询每个节点,收集结果,而且可以重复,如果需要使用的结果进行重新进行搜寻的话。该系统还为类似于Solr的搜索提供全文索引,同时还提供一个控制面板,可以查看集群的信息。

  Riak是由技术公司basho开发的一个类似Dynamo的分布式Key-Value系统。其以分布式,水平扩展性,高容错性等特点著称。从事Riak工作最有趣的部分是可以使用Javascript或者Erlang来做Map/Reduce查询,它们会查询每个节点,收集结果,而且可以重复,如果需要使用的结果进行重新进行搜寻的话。该系统还为类似于Solr的搜索提供全文索引,同时还提供一个控制面板,可以查看集群的信息。

  4、Memcached

  挥发性(临时性)的键值存储

  一般作为关系型数据库的缓存来使用

  具有非常快的处理速度

  由于存在数据丢失的可能,所以一般用来处理不需要持久保存的数据

  用于需要使用expires时(需要定期清除数据)

  使用一致性散列(ConsistentHashing)算法来分散数据

  5、Neo4J

大多数的NoSQL数据库只是存储键和值的一个灵活的捆绑。不过Neo4J的存储的是对象之间的关系,或者说这种结构就是数学中的“图”。Neo4J是一个面向网络(“图”)的数据库,也就是说,它是一个嵌入式的、基于磁盘的、具备完全的事务特性的java持久化引擎,但是它将结构化数据存储在网络上而不是表中,当然也可以把Neo4J看作是一个高性能的图引擎,该引擎具有成熟和健壮的数据库的所有特性。该工具包括很多有关搜索和分析的关系的算法,它能够帮助寻找谁是我的朋友,或者寻找朋友的朋友。这些“图的遍历”算法,可以节省很多指针查询的麻烦。

  大多数的NoSQL数据库只是存储键和值的一个灵活的捆绑。不过Neo4J的存储的是对象之间的关系,或者说这种结构就是数学中的“图”。Neo4J是一个面向网络(“图”)的数据库,也就是说,它是一个嵌入式的、基于磁盘的、具备完全的事务特性的java持久化引擎,但是它将结构化数据存储在网络上而不是表中,当然也可以把Neo4J看作是一个高性能的图引擎,该引擎具有成熟和健壮的数据库的所有特性。该工具包括很多有关搜索和分析的关系的算法,它能够帮助寻找谁是我的朋友,或者寻找朋友的朋友。这些“图的遍历”算法,可以节省很多指针查询的麻烦。

  6、TokyoTyrant

  持久性的键值存储

  用来处理需要持久保存,高速处理的数据

  具有非常快的处理速度

  用于不需要定期清除的数据

  使用一致性散列(ConsistentHashing)算法来分散数据

  7、Redis

  兼具Memcached和TokyoTyrant优势的键值存储

  擅长处理数组类型的数据

  具有非常快的处理速度

  可以高速处理时间序列的数据,易于处理集合运算

  拥有很多可以进行原子操作的方法

  使用一致性散列(ConsistentHashing)算法来分散数据

  8、MongoDB

  面向无需定义表结构的文档数据

  具有非常快的处理速度

  通过BSON的形式可以保存和查询任何类型的数据

  无法进行JOIN处理,但是可以通过嵌入(embed)来实现同样的功能

  使用sharding(范围分割)算法来分散数据

  上面多次提到了一致性散列,那到底什么是一致性散列呢?请参考这里,我就不赘述了

  不过,当server数量很少时,很可能他们在圆周上的分布不是特别均匀,

  导致cache不能均匀分布到所有的server上。

  这时候,就该请出虚拟节点了

  为每个物理节点(服务器)在圆上分配100~200个点,

  这样就能抑制分布不均匀,最大限度地减小服务器增减时的缓存重新分布,

  用户数据映射在虚拟节点上,就表示用户数据真正存储位置是在该虚拟节点代表的实际物理服务器上。

  9、Oracle的NoSQL

也许是NoSQL运动太红火的原因,Oracle决定开发一款产品,将键/值对拆分在整个节点集上,这样的优势在于提供了一个灵活的事务保护措施,进而可以确保从数据在节点上等待存储开始到通过网络被成功备份结束,都尽在掌握之中。    Oracle的NoSQLDatabase,是在10月4号的甲骨文全球大全上发布的BigDataAppliance的其中一个组件,BigDataAppliance是一个集成了hadoop、NoSQLDatabase、Oracle数据库Hadoop适配器、Oracle数据库Hadoop装载器及r语言的系统。

  也许是NoSQL运动太红火的原因,Oracle决定开发一款产品,将键/值对拆分在整个节点集上,这样的优势在于提供了一个灵活的事务保护措施,进而可以确保从数据在节点上等待存储开始到通过网络被成功备份结束,都尽在掌握之中。

  Oracle的NoSQLDatabase,是在10月4号的甲骨文全球大全上发布的BigDataAppliance的其中一个组件,BigDataAppliance是一个集成了Hadoop、NoSQLDatabase、Oracle数据库Hadoop适配器、Oracle数据库Hadoop装载器及R语言的系统。

  10、Hadoop的HBase

  HBase(HadoopDatabase),是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群。HBase是GoogleBigtable的开源实现,类似GoogleBigtable利用GFS作为其文件存储系统,HBase利用HadoopHDFS作为其文件存储系统;Google运行MapReduce来处理Bigtable中的海量数据,HBase同样利用HadoopMapReduce来处理HBase中的海量数据。

  虽然大多数人都认为Hadoop及其所有的工具都是作为管理大规模集群的一种机制,其实不然,Hadoop也包括数据库,在HBase中也是通过节点来传播数据。Hadoop的Map/Reduce的架构是非常适合于复杂的计算任务或查询工作。领土在不断的扩张,新的数据库像Accumulo就是Hadoop平台的一个延伸。(ApacheAccumulo是一个可靠的、可伸缩的、高性能的排序分布式的Key-Value存储解决方案,基于单元访问控制以及可定制的服务器端处理。使用GoogleBigTable设计思路,基于ApacheHadoop、Zookeeper和Thrift构建)

  小编结语:

  虽然NoSQL流行语火起来才短短几年的时间,但是不可否认,现在已经开始了第二代运动。尽管早期的堆栈代码只能算是一种实验,然而现在的系统已经更加的成熟、稳定。不过现在也面临着一个严酷的事实:技术越来越成熟——以至于原来很好的NoSQL数据存储不得不进行重写,也有少数人认为这就是所谓的2.0版本。这里列出一些比较知名的工具,可以为大数据建立快速、可扩展的存储库。

  更多内容尽在课课家教育!

赞(23)
踩(0)
分享到:
华为认证网络工程师 HCIE直播课视频教程