为什么PostgreSQL比MongoDB还快？

Postgresql9.4带来了全新的Nosql特性，并且根据EnterpriseDB的测试，其加载，插入和查询的性能都已经几倍于MongoDB了。
虽然我是PG的铁杆粉丝，但是关系数据库背负了ACID的重型装甲，在性能上居然能打败轻装上阵的Nosql 数据库总觉得有点离谱。
所以我在自己的环境里验证了一下EnterpriseDB的测试结果，并且小探一下PG取胜的原因。

1. EnterpriseDB的测试结果

以下是EnterpriseDB的测试结果(数据量为5000万)
http://www.enterprisedb.com/postgres-plus-edb-blog/marc-linster/postgres-outperforms-mongodb-and-ushers-new-developer-reality

（还可以参考这篇译文：http://blog.jobbole.com/78215/）
2.我的验证结果测试观点
为了使测试结果更加单纯，我准备单纯比拼cpu消耗(尽量排除IO和网络的干扰)，设定以下测试条件。
1）所有数据都要放进内存
2）C/S都跑在同一台单机上
所以，只在单机上进行10万条小数据量的测试。
注）EnterpriseDB的测试环境是32G内存的Amazon Web Services M3.2XLARGE实例，总数据量超过内存了。

测试环境
测试环境为个人PC上的VMware虚拟机
PC
cpu:Intel Core i5-3470 3.2G(4核)
MEM:6GB
SSD:OCZ-VERTEX4 128GB(VMware虚拟机所在磁盘，非系统盘)
OS:Win7
VMware虚拟机
cpu:4核
MEM:1GB
OS:CentOS 6.5
PG:Postgresql 9.4.0(shared_buffers = 428MB,其他是默认值)
MG: MongoDB 3.0.2
测试步骤
测试步骤非常简单,可以参考：
https://github.com/EnterpriseDB/pg_nosql_benchmark
但是，在测试前，有些东西要改。
1)把数据量减小到10万
pg_nosql_benchmark-master/pg_nosql_benchmark:
declare -a json_rows=(10000000)
==>
declare -a json_rows=(100000)
2)修改 mongo的一处脚本(注)
pg_nosql_benchmark-master/ lib/mongo_func_lib.sh:
collectionsize="$(echo ${output}|awk -F"," '{print $5}'|cut -d":" -f2)"
6 }'|cut -d":" -f2)"
注 ) pg_nosql_benchmark原来是基于 2.6设计的，MongoDB3.0 的db.json_tables.stats()输出可能变了，所以这边要修改一下。
测试结果

点击(此处)折叠或打开

 
   -bash-4.1$ sh pg_nosql_benchmark
 PID: 2160 [RUNTIME: 04-12-15 08:15:51] pg_nosql_benchmark: MongoDB Version 3.0.2
 PID: 2160 [RUNTIME: 04-12-15 08:15:51] pg_nosql_benchmark: Postgresql Version 9.4.0
 PID: 2160 [RUNTIME: 04-12-15 08:15:51] pg_nosql_benchmark: creating json data.
 PID: 2160 [RUNTIME: 04-12-15 08:17:18] pg_nosql_benchmark: preparing postgresql INSERTs.
 PID: 2160 [RUNTIME: 04-12-15 08:19:02] pg_nosql_benchmark: preparing mongo insert commands.
 PID: 2160 [RUNTIME: 04-12-15 08:20:45] pg_nosql_benchmark: droping database benchmark if exists.
 PID: 2160 [RUNTIME: 04-12-15 08:20:45] pg_nosql_benchmark: creating database benchmark.
 PID: 2160 [RUNTIME: 04-12-15 08:20:46] pg_nosql_benchmark: dropping mongo collection json_tables
 PID: 2160 [RUNTIME: 04-12-15 08:20:46] pg_nosql_benchmark: creating json_tables collection in postgresql.
 PID: 2160 [RUNTIME: 04-12-15 08:20:46] pg_nosql_benchmark: loading data in postgresql using sample.json.
 PID: 2160 [RUNTIME: 04-12-15 08:20:57] pg_nosql_benchmark: creating index on postgresql collections.
 PID: 2160 [RUNTIME: 04-12-15 08:21:00] pg_nosql_benchmark: testing mongoimport.
 PID: 2160 [RUNTIME: 04-12-15 08:21:14] pg_nosql_benchmark: creating index in mongodb.
 PID: 2160 [RUNTIME: 04-12-15 08:21:19] pg_nosql_benchmark: testing FIRST SELECT in postgresql.
 PID: 2160 [RUNTIME: 04-12-15 08:21:21] pg_nosql_benchmark: testing SECOND SELECT in postgresql.
 PID: 2160 [RUNTIME: 04-12-15 08:21:22] pg_nosql_benchmark: testing THIRD SELECT in postgresql.
 PID: 2160 [RUNTIME: 04-12-15 08:21:22] pg_nosql_benchmark: testing FOURTH SELECT in postgresql.
 PID: 2160 [RUNTIME: 04-12-15 08:21:23] pg_nosql_benchmark: calculating Postgresql collection size.
 PID: 2160 [RUNTIME: 04-12-15 08:21:23] pg_nosql_benchmark: testing mongo FIRST SELECT.
 PID: 2160 [RUNTIME: 04-12-15 08:21:27] pg_nosql_benchmark: testing mongo SECOND SELECT.
 PID: 2160 [RUNTIME: 04-12-15 08:21:27] pg_nosql_benchmark: testing mongo THIRD SELECT.
 PID: 2160 [RUNTIME: 04-12-15 08:21:30] pg_nosql_benchmark: testing mongo FOURTH SELECT.
 PID: 2160 [RUNTIME: 04-12-15 08:21:33] pg_nosql_benchmark: calculating the size of mongo collection.
 PID: 2160 [RUNTIME: 04-12-15 08:21:34] pg_nosql_benchmark: dropping mongo collection json_tables
 PID: 2160 [RUNTIME: 04-12-15 08:21:34] pg_nosql_benchmark: testing inserts in mongo
 PID: 2160 [RUNTIME: 04-12-15 08:23:00] pg_nosql_benchmark: droping json object in postgresql.
 PID: 2160 [RUNTIME: 04-12-15 08:23:00] pg_nosql_benchmark: inserting data in postgresql using sample_pg_inserts.json.
 number of rows 100000
 PG COPY (ns) 10886811763
 PG INSERT (ns) 22173081221
 PG SELECT (ns) 1018231815
 PG SIZE (bytes) 148946944
 MONGO IMPORT (ns) 13880183843
 MONGO INSERT (ns) 86577229486
 MONGO SELECT (ns) 2669842035
 MONGO SIZE (bytes) 429092864
 
 

除了数据加载的性能差距不明显外，其它数据基本和 EnterpriseDB的测试结果一致（MongoDB 的插入时间是PG的4倍，查询时间是PG的2倍多）。
3. Postgresql真的比MongoDB还快吗

下面模仿 EnterpriseDB的测试方法，单独进行每一项测试。

3.1 测试数据

修改测试脚本后再次执行，将加载和插入的数据文件保留下来。
pg_nosql_benchmark:

点击(此处)折叠或打开

4. 总结

测试数据总结如下（并根据服务端进程cpu的消耗量进行性能对比）：

	Postgresql			MongoDB			PK结果
	测试数据	服务端进程 cpu利用率	服务端进程 cpu占用时间	测试数据	服务端进程 cpu利用率	服务端进程 cpu占用时间	PK结果
Data Load（s)	10	93.40%	9.34	10.22	49.50%	5.06	MongoDB胜出(*1)
Insert(s)	20.77	74.50%	15.47	-	-	-	不具可比性
每sql事务Insert(s)	43.64	52.90%	23.09	87.591	22.60%	19.80	MongoDB胜出
全表扫描Select(s)	0.784	-	-	-	-	-	不具可比性
Select(s)	0.326	-	-	3.62	0.70%	0.03	不具可比性
0匹配Select(s)	0.015	-	-	0.06	-	-	Postgresql胜出
0匹配全表扫描Select(s)	0.594	-	-	0.24	-	-	不具可比性
Size(MB)	142	-	-	409	-	-	Postgresql胜出
索引Size(MB)	49	-	-	9(*2)	-	-	不具可比性

*1)考虑到数据加载经常是单线程操作，不能完全无视mongoimport的瓶颈，这一局应该算是平手。
*2)3个索引的总Size(MB)

这个结果和 EnterpriseDB的测试结果有很大出入。
1)数据加载
从服务端资源消耗的角度看，是 MongoDB的性能是 Postgresql的2倍。但是如果数据加载不能很好的并发展开，让mongoimport成为了瓶颈，那应该算打平。
另外， EnterpriseDB的数据加载的测试结果和我的结果差异比较大，可能是因为EnterpriseDB的测试中，数据量超过了系统内存量，IO对测试结果的影响开始显现。

2)数据插入
从服务端资源消耗的角度看，两者其实相差不大。EnterpriseDB的测试结果被mongo客户端的性能瓶颈绑架了。

3)数据查询
对无匹配数据(或少量匹配数据)的索引查询， Postgresql的性能是MongoDB的4倍(这一点也有点令人不解，同样是走索引的单点查询，为什么差距就这么大呢？)。
虽然EnterpriseDB的测试结果也表明Postgresql的性能是MongoDB 4倍左右，但EnterpriseDB的测试方法是有问题的。

4)数据大小
MongoDB的数据大小大约是 Postgresql的3倍，这和 EnterpriseDB的测试结果是一致的。

sql

Postgresql不仅是

sql

性能

MongoDB技高一筹（分布式集群上MongoDB更有优势）。

为什么PostgreSQL比MongoDB还快？

1. EnterpriseDB的测试结果

3.1 测试数据

3.3MongoDB

4. 总结

6. 参考

猜你在找的Postgre SQL相关文章