最近从一朋友处借来 Nosql一书,以前对Nosql也有一些了解,觉得Nosql很神奇高深,而畏于学习。读完 Shashank TiWari 与巨成(译)的深入Nosql以后,让我对Nosql有了更多的掌握和兴趣。下面是我对本书的一些理解和心得,请各位多指教。
Nosql的概念:Nosql并不单指一个产品和一种技术,它代表一族产品,以及一系统不同的,有时相互关联的,有关数据存储及处理的概念。
Nosql的分类:1. 面向列的有序存储(Goole Bigtable、HBase、Hypertable) 2.键/值存储(Membase、Redis、Apache Cassandra、Voldemort、Riak、Berkeley DB) 3.文档数据库(MongoDB、CouchDB) 4.图形数据库(Neo4j、FlockDB)
Thrift:Thrift是跨语言服务开发框架。 http://thrift.apache.org/
MongoDB内部:MongoDB将其文档编码为类JSON[http://www.json.org/]的二进制格式 BSON[http://bsonspec.org]
Membase架构:Membase支持Memcached协议,所以使用了Memcached的应用可以很容易地将Membase纳入它们的应用程序栈。但Membase还添加了持入化和复制等Memcached不支持的能力。
Hypertable底层:Hypertable是HBase的高性能替代物,Hypertable提供以列族为中心的数据存储,但是其物理存储特性还受访问组(access group)的影响,支持正则表达式过滤数据,能按行键,列名和值进行匹配,布隆过滤器(Bloom Filter)
Apache Cassandra 采用点对点模型,所有节点都是潜在的主节点。Cassandra采用点对点可扩展和最张一致性模型,依靠闲话协议(gossip-based protocol)来进行节点间通信。
Berkeley DB 实现键/值 存储,存储成四种数据结构:B树,哈希,队列和Recno
REST,即表示性状态转移,代表一种适用于分布式多媒体系统的软件架构风格。
Web框架和Nosql :Ruby on Rails最流行的敏捷web开发框架 ;Django是轻量级Web框架,支持原型和快速开发; Spring Data [http://www.springsource.org/spring-data]
工具和实用程序
RRDTool:开源工具,用来做高性能日志和进行时间序列化数据的图形化。[http://oss.oetiker.ch/rrdtool]
Nagios:开源的宿主和服务监控软件,Nagios核心是监控进程,它能监控任意类型的宿主 或服务[www.nagios.org]
Scribe:开源的、实时的、分布式日志聚合器[https://github.com/facebook/scribe]
Flume:分布式服务,用于高效地收集、聚合和挪动大量日志数据,基于数据流处理[http://archive.cloudera.com/cdh/3/flume]
Chukwa:是Hadoop子项目,致力于大规模收集与分析,还是监控和分析工具;
Pig:提供高级数据流定义语言和环境来用MapReduce进行大规模数据分析
OpenTSDB:分布式可扩展的时间序列数据存储,能非常灵活的管理和监控大量主机、服务器和应用程序,异步地从大量机器上收集数据并进行存储和索引[http://opentsdb.net/index.html]
Solandra:Solr是对Lucene类库的封装,在Lucene上提供了HTTP服务器、JSON、XML/HTTP支持等一系列功能[http://lucene.apache.org/solr]
Hummingbird:利用MongoDB开发的实时的Web流量可视化软件【https://github.com/mnutt/hummingbird】
C5t:用MongoDB构建的内容管理软件[https://bitbucket.org/percIoUs/c5t/wiki/Home]
GeoCouch:是CouchDB的扩展,为Apache CouchDB提供地理信息索引