NoSQL数据库的应用及推荐

作者：课课家教育来源： http://www.kokojia.com点击数：1128发布时间： 2017-08-17 08:00:35

　　对比传统关系型数据库，NoSQL有着更为复杂的分类——键值、面向文档、列存储、图数据库。这里就带你一览NoSQL各种类型的适用场景及一些知名公司的方案选择。

　　在过去几年，关系型数据库一直是数据持久化的唯一选择，数据工作者考虑的也只是在这些传统数据库中做筛选，比如SQLServer、Oracle、MySQL。甚至是做一些默认的选择，比如使用.NET的一般会选择SQLServer；使用java的可能会偏向Oracle；Ruby是MySQL；Python则是PostgreSQL或MySQL等等。

　　原因很简单：过去很长一段时间内，关系数据库的健壮性已经在多数应用程序中得到证实。我们可以使用这些传统数据库良好的控制并发操作、事务等等。然而如果传统的关系型数据库一直这么可靠，那么还有NoSQL什么事？NoSQL之所以生存并得到发展，是因为它做到了传统关系型数据库做不到的事！

　　关系型数据库中存在的问题

　　1.ImpedanceMismatch（阻抗失配）

　　我们使用Python、Ruby、Java、.Net等语言编写应用程序，这些语言有一个共同的特性——面向对象。但是我们使用MySQL、PostgreSQL、Oracle、SQLServer，这些数据库同样有一个共同的特性——关系型数据库。这里就牵扯到了“ImpedanceMismatch”这个术语：存储结构是面向对象的，但是数据库却是关系的，所以在每次存储或者查询数据时，我们都需要做转换。类似Hibernate、Mybatis、EntityFramework这样的ORM框架确实可以简化这个过程，但是在对查询有高性能需求时，这些ORM框架就捉襟见肘了。

　　2.应用程序规模的变大

　　网络应用程序的规模日渐变大，我们需要储存更多的数据、服务更多的用户以及需求更多的计算能力。为了应对这种情形，我们需要不停的扩展。

　　扩展分为两类：

　　1）纵向扩展，即购买更好的机器，更多的磁盘、更多的内存等等；

　　2）横向扩展，即购买更多的机器组成集群。在巨大的规模下，纵向扩展发挥的作用并不是很大。

　　首先单个机器性能提升需要巨额的开销并且有着性能的上限，在Google和Facebook这种规模下，永远不可能使用一台机器支撑所有的负载。鉴于这种情况，我们需要新的数据库，因为关系数据库并不能很好的运行在集群上。当然，你也可能会去搭建关系数据库集群，但是他们使用的是共享存储，这并不是我们想要的类型。于是就有了以Google、Facebook、Amazon这些试图处理更多传输所引领的NoSQL纪元。

　　2.NoSQL纪元

　　当下已经存在很多的NoSQL数据库，比如MongoDB、Redis、Riak、HBase、Cassandra等等。每一个都拥有以下几个特性中的一个：

　　不再使用SQL语言，比如MongoDB、Cassandra就有自己的查询语言

　　通常是开源项目

　　为集群运行而生

　　弱结构化——不会严格的限制数据结构类型

　　NoSQL数据库的类型

　　NoSQL可以大体上分为4个种类：Key-value、Document-Oriented、Column-FamilyDatabases、Graph-OrientedDatabases。

　　一、键值（Key-Value）数据库

　　键值数据库就像在传统语言中使用的哈希表。你可以通过key来添加、查询或者删除数据，鉴于使用主键访问，所以会获得不错的性能及扩展性。

　　产品：Riak、Redis、Memcached、Amazon’sDynamo、ProjectVoldemort

　　有谁在使用：GitHub（Riak）、BestBuy（Riak）、Twitter（Redis和Memcached）、StackOverFlow（Redis）、Instagram（Redis）、Youtube（Memcached）、Wikipedia（Memcached）

　　1.适用的场景

　　储存用户信息，比如会话、配置文件、参数、购物车等等。这些信息一般都和ID（键）挂钩，这种情景下键值数据库是个很好的选择。

　　2.不适用场景

　　1）取代通过键查询，而是通过值来查询。Key-Value数据库中根本没有通过值查询的途径。

　　2）需要储存数据之间的关系。在Key-Value数据库中不能通过两个或以上的键来关联数据。

　　3）事务的支持。在Key-Value数据库中故障产生时不可以进行回滚。

　　二、面向文档（Document-Oriented）数据库

　　面向文档数据库会将数据以文档的形式储存。每个文档都是自包含的数据单元，是一系列数据项的集合。每个数据项都有一个名称与对应的值，值既可以是简单的数据类型，如字符串、数字和日期等；也可以是复杂的类型，如有序列表和关联对象。数据存储的最小单位是文档，同一个表中存储的文档属性可以是不同的，数据可以使用XML、JSON或者JSONB等多种形式存储。

　　产品：MongoDB、CouchDB、RavenDB

　　有谁在使用：SAP（MongoDB）、Codecademy（MongoDB）、Foursquare（MongoDB）、NBCNews（RavenDB）

　　1.适用的场景

　　1）日志。企业环境下，每个应用程序都有不同的日志信息。Document-Oriented数据库并没有固定的模式，所以我们可以使用它储存不同的信息。

　　2）分析。鉴于它的弱模式结构，不改变模式下就可以储存不同的度量方法及添加新的度量。

　　2.不适用场景

　　在不同的文档上添加事务。Document-Oriented数据库并不支持文档间的事务，如果对这方面有需求则不应该选用这个解决方案。

　　三、列存储（WideColumnStore/Column-Family）数据库

　　列存储数据库将数据储存在列族（columnfamily）中，一个列族存储经常被一起查询的相关数据。举个例子，如果我们有一个Person类，我们通常会一起查询他们的姓名和年龄而不是薪资。这种情况下，姓名和年龄就会被放入一个列族中，而薪资则在另一个列族中。

　　产品：Cassandra、HBase

　　有谁在使用：Ebay（Cassandra）、Instagram（Cassandra）、NASA（Cassandra）、Twitter（CassandraandHBase）、Facebook（HBase）、Yahoo!（HBase）

　　1.适用的场景

　　1）日志。因为我们可以将数据储存在不同的列中，每个应用程序可以将信息写入自己的列族中。

　　2）博客平台。我们储存每个信息到不同的列族中。举个例子，标签可以储存在一个，类别可以在一个，而文章则在另一个。

　　2.不适用场景

　　1）如果我们需要ACID事务。Vassandra就不支持事务。

　　2）原型设计。如果我们分析Cassandra的数据结构，我们就会发现结构是基于我们期望的数据查询方式而定。在模型设计之初，我们根本不可能去预测它的查询方式，而一旦查询方式改变，我们就必须重新设计列族。

　　四、图（Graph-Oriented）数据库

　　图数据库允许我们将数据以图的方式储存。实体会被作为顶点，而实体之间的关系则会被作为边。比如我们有三个实体，SteveJobs、Apple和Next，则会有两个“Foundedby”的边将Apple和Next连接到SteveJobs。

　　产品：Neo4J、InfiniteGraph、OrientDB

　　有谁在使用：Adobe（Neo4J）、Cisco（Neo4J）、T-Mobile（Neo4J）

　　1.适用的场景

　　1）在一些关系性强的数据中

　　2）推荐引擎。如果我们将数据以图的形式表现，那么将会非常有益于推荐的制定

　　2.不适用场景

　　不适合的数据模型。图数据库的适用范围很小，因为很少有操作涉及到整个图。

　　看完以上内容，另外，随着大数据的不断发展，非关系型的数据库现在成了一个极其热门的新领域，非数据库产品的发展非常迅速。现今的计算机体系结构在数据存储方面要有庞大的水平扩展性，而NoSQL也正是致力于改变这一现状。目前Google的BigTable和Amazon的Dynamo使用的就是NoSQL型数据库，下面介绍10种出色的NoSQL数据库。

　　虽然NoSQL流行语火起来才短短一年的时间，但是不可否认，现在已经开始了第二代运动。尽管早期的堆栈代码只能算是一种实验，然而现在的系统已经更加的成熟、稳定。不过现在也面临着一个严酷的事实：技术越来越成熟——以至于原来很好的NoSQL数据存储不得不进行重写，也有少数人认为这就是所谓的2.0版本。这里列出一些比较知名的工具，可以为大数据建立快速、可扩展的存储库。

　　1.Casssandra

　　Cassandra最初由Facebook开发，后来成了Apache开源项目，它是一个网络社交云计算方面理想的数据库。它集成了其他的流行工具如Solr，现在已经成为一个完全成熟的大型数据存储工具。Cassandra是一个混合型的非关系的数据库，类似于Google的BigTable。其主要功能比Dynomite（分布式的Key-Value存储系统）更丰富，但支持度却不如文档存储MongoDB。Cassandra的主要特点就是它不是一个数据库，而是由一堆数据库节点共同构成的一个分布式网络服务，对Cassandra的一个写操作，会被复制到其他节点上去，而对Cassandra的读操作，也会被路由到某个节点上面去读取。在最近的一次测试中，Netflix建立了一个288个节点的集群。

　　2.Lucene/Solr

　　Lucene是Apache软件基金会4jakarta项目组的一个子项目，这是一个开放源代码的全文检索引擎工具包，就是说它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构。不过大多数人并不认同Lucene是一个数据库，因为大多数人只是用它来检索大量的文本块，不过它的确采用了与其他NoSQL数据存储相似的模型。如果说查询并不是仅仅局限于精确的匹配，而是寻找出那些出现在块中的字或者字段的话，毫无疑问，Lucene/Solr是最好的查询方式。

　　3.Riak

　　Riak是由技术公司basho开发的一个类似Dynamo的分布式Key-Value系统。其以分布式，水平扩展性，高容错性等特点著称。从事Riak工作最有趣的部分是可以使用JavaScript或者Erlang来做Map/Reduce查询，它们会查询每个节点，收集结果，而且可以重复，如果需要使用的结果进行重新进行搜寻的话。该系统还为类似于Solr的搜索提供全文索引，同时还提供一个控制面板，可以查看集群的信息。

　　4.CouchDB

　　CouchDB是用Erlang开发的面向文档的数据库系统，不过它不是一个传统的关系数据库，而是面向文档的数据库，其数据存储方式有点类似lucene的index文件格式，CouchDB最大的意义在于它是一个面向web应用的新一代存储系统。作为一个分布式的数据库，CouchDB可以把存储系统分布到n台物理的节点上面，并且很好的协调和同步节点之间的数据读写一致性。CouchDB支持RESTAPI，可以让用户使用JavaScript来操作CouchDB数据库，也可以用JavaScript编写查询语句，可以想像一下，用AJAX技术结合CouchDB开发出来的CMS系统会是多么的简单和方便。

　　CouchDB还有一个更加商业化的“表亲”——Couchbase，不过它提供缓存功能，更好的分片，增量查询，更好的索引和一些其他的功能。其实Couchbase与CouchDB也是紧密相关的，Couchbase产品包含了CouchDB的一个副本。

　　5.Neo4J

　　大多数的NoSQL数据库只是存储键和值的一个灵活的捆绑。不过Neo4J的存储的是对象之间的关系，或者说这种结构就是数学中的“图”。Neo4J是一个面向网络（“图”）的数据库，也就是说，它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎，但是它将结构化数据存储在网络上而不是表中，当然也可以把Neo4J看作是一个高性能的图引擎，该引擎具有成熟和健壮的数据库的所有特性。该工具包括很多有关搜索和分析的关系的算法，它能够帮助寻找谁是我的朋友，或者寻找朋友的朋友。这些“图的遍历”算法，可以节省很多指针查询的麻烦。

　　6.Oracle的NoSQL

　　也许是NoSQL运动太红火的原因，Oracle决定开发一款产品，将键/值对拆分在整个节点集上，这样的优势在于提供了一个灵活的事务保护措施，进而可以确保从数据在节点上等待存储开始到通过网络被成功备份结束，都尽在掌握之中。

　　Oracle的NoSQLDatabase，是在10月4号的甲骨文全球大全上发布的BigDataAppliance的其中一个组件，BigDataAppliance是一个集成了Hadoop、NoSQLDatabase、Oracle数据库Hadoop适配器、Oracle数据库Hadoop装载器及R语言的系统。

　　7.MongoDB

　　MongoDB是一个基于分布式文件存储的数据库，介于关系数据库和非关系数据库之间，是非关系数据库当中功能最丰富，最像关系数据库的。MongoDB最大的特点是他支持的查询语言非常强大，其语法有点类似于面向对象的查询语言，几乎可以实现类似关系数据库单表查询的绝大部分功能，而且还支持对数据建立索引。MongoDB支持RUBY，PYTHON，JAVA，C++，PHP,C#等多种语言。

　　MongoDB是高性能开源文档数据库，也是目前最受关注的NoSQL技术之一，以敏捷、可扩展和对企业应用友好（支持事务，一致性和数据完整性保证，有大企业应用案例）而著称。有人甚至认为LAMP中的M应该用MongoDB取代MySQL，其火热程度可见一斑。使用MongoDB的公司包括Foursquare,Craiglist,迪士尼，SAP，Intuit，EA等，国内淘宝、大众点评、视觉中国等公司有应用。(最新版MongoDB2.2下载)

　　8.Hadoop的HBase

　　HBase(HadoopDatabase)，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群。HBase是GoogleBigtable的开源实现，类似GoogleBigtable利用GFS作为其文件存储系统，HBase利用HadoopHDFS作为其文件存储系统；Google运行MapReduce来处理Bigtable中的海量数据，HBase同样利用HadoopMapReduce来处理HBase中的海量数据。

　　虽然大多数人都认为Hadoop及其所有的工具都是作为管理大规模集群的一种机制，其实不然，Hadoop也包括数据库，在HBase中也是通过节点来传播数据。Hadoop的Map/Reduce的架构是非常适合于复杂的计算任务或查询工作。领土在不断的扩张，新的数据库像Accumulo就是Hadoop平台的一个延伸。(ApacheAccumulo是一个可靠的、可伸缩的、高性能的排序分布式的Key-Value存储解决方案，基于单元访问控制以及可定制的服务器端处理。使用GoogleBigTable设计思路，基于ApacheHadoop、Zookeeper和Thrift构建)

　　9.BigTable/Accumulo/Hypertable

　　BigTable是非关系的数据库,是一个稀疏的、分布式的、持久化存储的多维度排序Map。Bigtable的设计目的是可靠的处理PB级别的数据，并且能够部署到上千台机器上。Bigtable已经实现了下面的几个目标：适用性广泛、可扩展、高性能和高可用性。Bigtable已经在超过60个Google的产品和项目上得到了应用，包括GoogleAnalytics、GoogleFinance、Orkut、PersonalizedSearch、Writely和GoogleEarth。

　　谷歌的BigTable开启了NoSQL的热潮，现在很多公司都模仿谷歌的架构搭建了自己的平台。谷歌的AppEngine用户可以把键/值对存储在数据库中，而Hadoop的用户可以把它们放在Accumulo上，其他的可以使用Hypertable。所有的这些基本上都属于键/值存储，只不过添加了一些额外的功能，增加了搜索的速度而已。

　　10.DynamoDB

　　DynamoDB是亚马逊的key-value模式的存储平台，可用性和扩展性都很好，性能也不错：读写访问中99.9%的响应时间都在300ms内。DynamoDB的NoSQL解决方案，也是使用键/值对存储的模式，平且通过服务器把所有的数据存储在SSD上的三个不同的区域。如果有更高的传输需求，DynamoDB也可以在后台添加更多的服务器。

　　小编结语：

　　更多内容尽在课课家教育！

踩(0)

分享到：

上一篇：8个流行的Linux平台开源代码编辑器

下一篇：Linux下安装Oracle11g服务器的注意事项和方法