很久没有更新,今天说些和分布式系统中的一些概念、理论相关的东西,切入点是CAP。
CAP
CAP理论是由Brewer远在2000年的PODC会议上提出来的。CAP指的是:Consistency、Availability和Partition?Tolerance,下面简述此三者:
1、Consistency(一致性):一致性是说数据的原子性,这种原子性在经典的数据库中是通过事务来保证的,当事务完成时,无论其是成功还是回滚,数据都会处于一致的状态。在分布式环境中,一致性是说多点的数据是否一致。
2、Availability(可用性):可用性是说服务能一直保证是可用的状态,当用户发出一个请求,服务能在有限时间内返回结果。而这种可用性是不关乎结果的正确与否,所以,如果服务一致返回错误的结果,其实也可以称为其是可用的。
3、Partition?Tolerance(分区容忍性):Partition这个词不是常说的操作系统或数据库中的用语,而是指网络的分区。网络中的两个服务结点出现分区的原因很多,比如网络断了、对方结点因为程序bug或死机等原因不能访问。
对于CAP三者,Brewer给出的结论是三者在分布式环境中不能鼎力,一个分布式系统只能有限的实现两者要求,并且这个结论又被另一高人证明了一番。
一致性问题
一致性可分为强一致性和弱一致性,弱一致性又称为最终一致性。
在单机环境中,强一致性可以由数据库的事务保证。但在多机环境中,强一致性就很难做到。尽管可以使用2PC来实现分布式事务,但它的低性能(很多情况下满足不了可用性需求)使得不适合于互联网应用。这种强一致性效果的取得,其实是让提交处理过程同步化。
在多机环境中,通过使提交处理半同步半异步、或者全异步,取得最终一致性效果。例如数据库中的主从复制,在提交时就是主库同步从库异步,这对从库复制进度落后不多的场景很简单有效,但在从库落后主库很多时,如果应用还从从库读数据,就会读出脏数据,可以通过监控从库复制进度来选择读哪个从库以避免这个问题。在NOsql模式下,以Dynamo为例,可以通过确定NRW的不同取值,可以做到同步、半同步半异步、或者全异步的效果。
最终一致性使得数据的提交效果具有延时性,而在一定的延时性范围内(比如1秒以内),应用的可用性就是OK的,比如提交后在客户端通过JS等停一段时间刷新页面就是要取得这种效果。
主从OR对等系统
像数据库这样的主从系统有着广泛的应用,它很适合于提交压力不会使得从库复制明显落后的场景。它的缺点是,当主从提交压力增大、或者存在耗时长的提交命令时,从库复制进度会明显落后于主库。在Cache+DB的应用场景下,Cache的填充时机和策略也会受到主从模式影响。如果在一个Session中提交DB后作废Cache,而由后续的(或并发的)另一个Session来再次设置Cache、并且数据是从从库获取,就很有可能缓存住脏数据,如果Cache时间很长,那问题可能就很严重了。可以变通的策略是,在一个Session中提交DB后不是作废Cache,而是更新Cache,并且数据是从主库获取或者直接从应用环境获取。主从的另一个问题是,它有提交单点,但是,如果主从能满足应用需要,在具有完备的主备切换的保证下,这个单点问题并不见得有多大。
因为Dynamo的时兴,对等系统成为另一种选择。对等系统解决了单点问题,有着高分区容忍性,但它的效果仍得商榷。NRW的不同取值会影响读写数据效果,多点提交带来的冲突解决也是个问题,尽管通常采用高版本替换低版本的粗暴策略。现在的NOsql对等系统存储的是简单的kv,并且可以采用加机器来扩容,所以性能方面应该是可接受的(尽管常见的单机kv存储性能要比数据库高很多,但在对等系统中,因为其复杂性,换算下来单机的性能并不见得有多高)。
sql和NOsql各有其优缺点。如果存储一些实体数据并且查询提交只是根据唯一标识来,使用NOsql也许就很合适。但像复杂的关系数据,使用sql就更合适些。而就提交模式来说,如果并发提交的数据隔离性不好(比如需要同时对同一个数值做更新),那么对等系统的提交冲突就会增多,数据的正确性就会受到影响。
BASE
上面提到,在分布式环境中,CAP只能取两者。但是,因为网络分区的情况不可避免,并且它对可用性有着重要影响,所以互联网中的分布式系统多在一致性方面做些折中。虽然不能达到强一致性,但可以根据应用特点采用适用的手段来达到够用的一致性效果。比如,对于微博系统,当用户新增一条消息,能够达到用户能看到刚才发的消息、而他的follower们能在尽快时间看到他新发的消息的效果就可以了。而在实现时,就可以结合同步和异步多种策略、sql+NOsql多种存储方案来满足应用需要。
BASE(Basically?Available、Soft?state、Eventually?consistent)是对CAP中的AP的延伸。
在单机环境中,ACID是数据的属性;而在分布式环境中,BASE就是数据的属性。ACID有“尖刻”之含义,所以单机环境的数据有着很高的要求。而因为分布式环境的网络分区性及复杂性,对数据也只能有“基本”的要求了。
从ACID到CAP和BASE,从单机到分布式,从sql到NOsql,互联网应用的大规模发展促使不断出现可替代旧方案的新技术。在技术选型方面,重要的是根据自己的应用特点选择自己能驾驭的技术。而现实的应用场景,也大多是多种技术方案的结合。
@H_301_43@
CAP,BASE和最终一致性是Nosql数据库存在的三大基石。而五分钟法则是内存数据存储了理论依据。这个是一切的源头。@H_301_43@
CAPC:Consistency 一致性@H_301_43@
A:Availability 可用性(指的是快速获取数据)@H_301_43@ P: Tolerance of networkPartition 分区容忍性(分布式)@H_301_43@ 10年前,Eric Brewer教授指出了著名的CAP理论,后来Seth Gilbert 和 Nancy lynch两人证明了CAP理论的正确性。CAP理论告诉我们,一个分布式系统不可能满足一致性,可用性和分区容错性这三个需求,最多只能同时满足两个。@H_301_43@ 熊掌与鱼不可兼得也。关注的是一致性,那么您就需要处理因为系统不可用而导致的写操作失败的情况,而如果您关注的是可用性,那么您应该知道系统的read操作可能不能精确的读取到write操作写入的最新值。因此系统的关注点不同,相应的采用的策略也是不一样的,只有真正的理解了系统的需求,才有可能利用好CAP理论。@H_301_43@ 作为架构师,一般有两个方向来利用CAP理论@H_301_43@ key-value存储,如Amaze Dynamo等,可根据CAP三原则灵活选择不同倾向的数据库产品。@H_301_43@ 领域模型 + 分布式缓存 + 存储 (Qi4j和Nosql运动),可根据CAP三原则结合自己项目定制灵活的分布式方案,难度高。@H_301_43@ 而对大型网站,可用性与分区容忍性优先级要高于数据一致性,一般会尽量朝着 A、P 的方向设计,然后通过其它手段保证对于一致性的商务需求。架构设计师不要精力浪费在如何设计能满足三者的完美分布式系统,而是应该进行取舍。@H_301_43@ 不同数据对于一致性的要求是不同的。举例来讲,用户评论对不一致是不敏感的,可以容忍相对较长时间的不一致,这种不一致并不会影响交易和用户体验。而产品价格数据则是非常敏感的,通常不能容忍超过10秒的价格不一致。@H_301_43@ CAP理论的证明:Brewer's CAP Theorem@H_301_43@
最终一致性
一言以蔽之:过程松,结果紧,最终结果必须保持一致性@H_301_43@ 为了更好的描述客户端一致性,我们通过以下的场景来进行,这个场景中包括三个组成部分:@H_301_43@ 存储系统@H_301_43@ 存储系统可以理解为一个黑盒子,它为我们提供了可用性和持久性的保证。@H_301_43@ Process A@H_301_43@ ProcessA主要实现从存储系统write和read操作@H_301_43@ Process B 和ProcessC@H_301_43@ ProcessB和C是独立于A,并且B和C也相互独立的,它们同时也实现对存储系统的write和read操作。@H_301_43@ 下面以上面的场景来描述下不同程度的一致性:@H_301_43@ 强一致性@H_301_43@ 强一致性(即时一致性) 假如A先写入了一个值到存储系统,存储系统保证后续A,B,C的读取操作都将返回最新值@H_301_43@ 弱一致性@H_301_43@ 假如A先写入了一个值到存储系统,存储系统不能保证后续A,C的读取操作能读取到最新值。此种情况下有一个“不一致性窗口”的概念,它特指从A写入值,到后续操作A,C读取到最新值这一段时间。@H_301_43@ 最终一致性@H_301_43@ 最终一致性是弱一致性的一种特例。假如A首先write了一个值到存储系统,存储系统保证如果在A,C后续读取之前没有其它写操作更新同样的值的话,最终所有的读取操作都会读取到最A写入的最新值。此种情况下,如果没有失败发生的话,“不一致性窗口”的大小依赖于以下的几个因素:交互延迟,系统的负载,以及复制技术中replica的个数(这个可以理解为master/salve模式中,salve的个数),最终一致性方面最出名的系统可以说是DNS系统,当更新一个域名的IP以后,根据配置策略以及缓存控制策略的不同,最终所有的客户都会看到最新的值。
- Causal consistency(因果一致性)
如果Process A通知Process B它已经更新了数据,那么Process B的后续读取操作则读取A写入的最新值,而与A没有因果关系的C则可以最终一致性。
- Read-your-writes consistency
如果Process A写入了最新的值,那么Process A的后续操作都会读取到最新值。但是其它用户可能要过一会才可以看到。
- Session consistency
此种一致性要求客户端和存储系统交互的整个会话阶段保证Read-your-writes consistency.Hibernate的session提供的一致性保证就属于此种一致性。
- Monotonic read consistency
此种一致性要求如果Process A已经读取了对象的某个值,那么后续操作将不会读取到更早的值。
- Monotonic write consistency
此种一致性保证系统会序列化执行一个Process中的所有写操作。
BASE
说起来很有趣,BASE的英文意义是碱,而ACID是酸。真的是水火不容啊。@H_301_43@ @H_301_43@
- Basically Availble --基本可用
- Soft-state --软状态/柔性事务
"Soft state" 可以理解为"无连接"的,而 "Hard state" 是"面向连接"的
- Eventual Consistency --最终一致性
最终一致性, 也是是 ACID 的最终目的。@H_301_43@ @H_301_43@BASE模型反ACID模型,完全不同ACID模型,牺牲高一致性,获得可用性或可靠性: Basically Available基本可用。支持分区失败(e.g. sharding碎片划分数据库) Soft state软状态 状态可以有一段时间不同步,异步。 Eventually consistent最终一致,最终数据是一致的就可以了,而不是时时一致。
BASE思想的主要实现有
1.按功能划分数据库
2.sharding碎片
BASE思想主要强调基本的可用性,如果你需要高可用性,也就是纯粹的高性能,那么就要以一致性或容错性为牺牲,BASE思想的方案在性能上还是有潜力可挖的。
I/O的五分钟法则
在 1987 年, Jim Gray 与 Gianfranco Putzolu 发表了这个"五分钟法则"的观点,简而言之,如果一条记录频繁被访问,就应该放到内存里,否则的话就应该待在硬盘上按需要再访问。这个临界点就是五分钟。 看上去像一条经验性的法则,实际上五分钟的评估标准是根据投入成本判断的,根据当时的硬件发展水准,在内存中保持 1KB 的数据成本相当于硬盘中存据 400 秒的开销(接近五分钟)。这个法则在 1997 年左右的时候进行过一次回顾,证实了五分钟法则依然有效(硬盘、内存实际上没有质的飞跃),而这次的回顾则是针对 SSD 这个"新的旧硬件"可能带来的影响。随着闪存时代的来临,五分钟法则一分为二:是把 SSD 当成较慢的内存(extended buffer pool )使用还是当成较快的硬盘(extended disk)使用。小内存页在内存和闪存之间的移动对比大内存页在闪存和磁盘之间的移动。在这个法则首次提出的 20 年之后,在闪存时代,5 分钟法则依然有效,只不过适合更大的内存页(适合 64KB 的页,这个页大小的变化恰恰体现了计算机硬件工艺的发展,以及带宽、延时)。