【架构设计】15-高性能NoSQL

发布日期: 2019-05-29

文章字数: 1.9k

阅读时长: 6 分

阅读次数:

关系型数据库的缺点

关系型数据库已经非常成熟，但是并不是完美的，仍然有以下缺点：

关系型数据库存储的是行记录，无法存储数据结构。
关系型数据库的Schema扩展非常不方便。

关系型数据库的Schema是强约束，无法操作不存在的列。当要扩展列时，需要先执行DDL操作。
关系型数据库在大数据场景下I/O较高。
如果对关系型数据库的表进行统计的时候，I/O会非常的高。即使只是统计几列的数据，它也会把行中所有列的数据加载到内存当中。
关系型数据库的全文搜索功能比较弱。
关系型数据库的全文搜索只能用Like进行扫描,性能低。

针对这些问题，就诞生了NoSQL。在某些场景不NoSQL的性能会比关系型数据库的性能更好。但是这种性能提升是牺牲了ACID的某些特性。要注意的是NoSQL并不是银弹，它是关系型数据库的补充。NoSQL != No SQL,NoSQL = Not Only SQL。

常见的NoSQL方案分为以下几类：

K-V存储：解决关系型数据库无法存储数据结构的问题，如Redis。
文档型数据库：解决关系型数据库强Schema的问题，如MongoDB。
列式数据库：解决大数据场景下I/O较高的问题，如HBASE。
全文搜索引擎：解决关系型数据库全文搜索功能弱的问题，如ES。

下面分别介绍：

K-V存储

K-V存储全称是key-value存储,其中key是数据标识，Value是数据。以Redis为代表，是开源的高性能K-V缓存和存储系统。其Value存储的数据可以是具体数据结构，包括String,Map,List,Set等等。
Redis的缺点在于不支持完整的ACID事务。Redis只保证了事物的隔离性和一致性，无法保证原子性和持久性。

文档型数据库

文档型数据库最大的特点就是No Schema，可以存储和读取任意数据。目前大部分文档型数据库数据存储都是使用JSON，因为JSON是自描述的,无须使用之前定义的字段。读取一个JSON中不存在的字段也不会报报错。

文档型数据库的优势在于：

新增字段简单
业务增加字段不需要你像关系型数据库那样进行DDL操作，直接在数据上增加字段即可。
历史数据不会出错
即使新增了字段，读取历史数据也不会报错，对于新增的字段也只会返回空。
可以存储复杂的数据结构
因为使用JSON作为数据结构，所以可以描述很复杂的数据结构。

文档型数据库的缺点在于：

不支持事务。
不支持Join操作。

列式数据库

列式数据库是指按照列来存储数据，有别于关系型数据库按照行来存储数据。

关系型数据库使用行式存储的优点在于：

业务同时读取多个列时效率高，因为这些列是按行存储在一起的，一次行操作可以把多个列的值读取到磁盘上面。
能够一次性完成对一行数据多个列的写操作。保证了行数据的原子性和一致性。因为这些数据都是写在一起的。如果是采用列式存储的，因为一行的数据存储在不同的文件上，所以可能导致某些列更新成功，某些列更新失败，导致数据不一致。

但是，如果在海量数据的情况下，比如我们需要查询用户年龄这个字段，如果是行式存储的话，需要把用户的所有数据放到内存中，然后返回用户年龄这个字段的值。但是采用列式存储的话，只需要读取年龄这个字段的值即可。可以大大的减少I/O数量。

另一个方面，可以提供更高的压缩比。因为某列的数据类型都是一致的，能够提高更高的压缩比。普通的行式存储的压缩比在3:1到5:1左右。列式存储的压缩比在8:1和30:1左右。

全文搜索引擎

传统的关系型数据库一般采用索引的方式来提高访问速度，但是在全文搜索的业务场景下，索引也无能为力，主要在：

全文搜索的条件可以任意的组合，如果都加上索引的话，索引的数量会非常的多。
全文搜索的模糊匹配方式，索引无法满足，只能用like实现，需要全文扫描。

全文搜索的基本原理

全文搜索引擎的技术原理被称为“倒排索引”。也常被称为反向索引、置入档案或反向档案，是一种索引方法，其基本原理是建立单词到文档的索引。之所以称为“倒排”，是和“正排”索引相对的，“正排”索引的基本原理是建立文档到单词的索引。下面用一个例子来说明“倒排”和“正排”。

假设我们有一个文章列表，用户可以浏览文章和搜索文章。

正排索引示例：

文章ID	文章名称	文章内容
1	敏捷架构	文档包含：架构、设计、架构师等词
2	Java编程必知	Java、编辑、面向对象、架构、设计等词
3	面向对象	设计、模式、对象、类、Java等词