频道导航

Cassandra源码学习：数据文件分布

2020-05-30 NoSQL 前端之家

前端之家收集整理的这篇文章主要介绍了Cassandra源码学习：数据文件分布，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

概述

Cassandra写入数据流程是先将数据写入Commitlog中，然后写入内存Memtable中，当满足一定条件将内存中的数据刷入磁盘SSTable。

Cassandra需要两个目录来分别保存Commitlog和SSTable生成的文件，目录位置可以通过配置项修改：

[html]view plaincopyprint? 
    
 data_file_directories:-/var/lib/cassandra/data
 commitlog_directory:/var/lib/cassandra/commitlog

Commitlog

由两个部分组成，如下：

[html]view plaincopyprint? 
     
 CommitLog-1396061983699.log
 CommitLog-1396061983699.log.header

log文件中保存了每次更新操作，header文件记录了哪些数据已经从Memtable中写入SSTable中，head文件可以删除垃圾日志，节省空间。

SSTable

Memtable中记录一个列族的更新记录，当数据达到配置的容量上限，或者条数限制等条件时，会被写入SSTable中。SSTable会为每个keyspace建一个目录，默认会有一个system目录，供系统使用。

目录中每一次写入会生成3个文件

User-e-1-Data.db

User-e-1-Filter.db
User-e-1-Index.db

其中,User表示ColumnFamily， e为版本标识，1代表这是User的第一个文件，每次刷入会增长。

Filter文件

filter文件中存放着一个布隆过滤器，可以快递判断一个key是否在data文件中。布隆过滤器是一种不确定性算法：如果通过布隆过滤器判断出这个key不在SSTable中，就一定不在；如果判断出在SSTable中，不一定在。通过布隆过滤器可以减少访问index文件的次数。

Index文件

Index文件保存data文件中每个key对应的位置：

index文件中的key是有序的，防止index文件非常大，查找一个key花费较大开销，cassandra做了一个内存缓存，记录部分key在index文件中的位置：

这个间距是可以调节的，要判断一个key在data中的位置先查询内存缓存，得到这个key在index文件中的位置，然后再定位到data文件位置。

Data文件

data文件中存储的是真正的数据，其格式如下：

data文件不仅存储了key对应的值，还对每个key保存了一份索引columnIdx。columnIdx也包含布隆过滤器和索引两部分。cassandra中的行有宽行和窄行之分，宽行可能有上万个column，要更新某一个column时也是比较麻烦的，所以在这里做了一个索引。

上一篇：Cassandra源码学习：数据模型下一篇：关于nosql的一些知识

猜你在找的NoSQL相关文章

Redis进阶实践之十八使用管道模式提高Redis查询的速度

一、引言学习redis 也有一段时间了，该接触的也差不多了。后来有一天，以前的同事问我，如...

作者：前端之家时间：2020-11-07

MongoDb进阶实践之二如何在Windows上安装和配置MongoDB

一、引言上一篇文章，我介绍了如何在Linux系统上安装和配置MongoDB，其实都不是很难，不需...

作者：前端之家时间：2020-11-07

Redis进阶实践之十七 Redis协议的规范

一、介绍 Redis客户端使用RESP（Redis的序列化协议）协议与Redis的服务器端进行通信。虽然...

作者：前端之家时间：2020-11-07

Redis进阶实践之十九 Redis如何使用lua脚本

一、引言 redis学了一段时间了，基本的东西都没问题了。从今天开始讲写一些redis和lua脚本...

作者：前端之家时间：2020-11-07

Redis进阶实践之十五 Redis-cli命令行工具使用详解第二部分（结束）

一、介绍今天继续redis-cli使用的介绍，上一篇文章写了一部分，写到第9个小节，今天就来完...

作者：前端之家时间：2020-11-07

Redis进阶实践之十四 Redis-cli命令行工具使用详解第一部分

一、介绍 redis学了有一段时间了，以前都是看视频，看教程，很少看官方的东西。现在redis的...

作者：前端之家时间：2020-11-07

MongoDb进阶实践之七 MongoDB的索引入门

一、引言好久没有写东西了，MongoDB系列的文章也丢下好长时间了。今天终于有时间了，就写...

作者：前端之家时间：2020-11-07

Memcached在Linux环境下的使用详解

一、引言写有关NoSQL数据库有关的文章已经有一段时间了，可以高兴的说，Redis暂时就算写完...

作者：前端之家时间：2020-11-07

Redis进阶实践之二十 Redis的配置文件使用详解

一、引言写完上一篇有关redis使用lua脚本的文章，就有意结束Redis这个系列的文章了，当然...

作者：前端之家时间：2020-11-07

Redis进阶实践之十二 Redis的Cluster集群动态扩容

一、引言上一篇文章我们一步一步的教大家搭建了Redis的Cluster集群环境，形成了3个主节点...

作者：前端之家时间：2020-11-07

编程分类

MySQL MsSQL Oracle Sqlite Postgre SQL Mariadb MongoDB NoSQL HBase JDBC

最新文章