我正在寻找容错且易于维护的DFS(分布式文件系统).我将有吨(100M)的小文件(从1K到500K).文件将位于某些目录中,这些目录将构建数据的逻辑结构.
我的平均读取负载为100Mb / s,写入负载为100Mb / s.
我想要一些关于哪个文件系统最适合给定要求的输入.
有什么想法吗?
解决方法
Ceph非常有趣,有一些简洁的功能.一个特别酷的是复制功能(决定OSD数据的去除)非常灵活,可以根据您的可靠性需求进行调整.
一般的想法是有3种类型的守护进程:
> OSD,存储对象(基本上是原始字节流)
> MDS,元数据服务器,提供文件系统语义
> MDS还进行自适应负载平衡 – 如果某些元数据真的被大量访问,它将扩展到更多MDS以共享负载.
>监视器,它维护集群状态和配置
客户端已经在Linux内核上游了一段时间了,服务器的东西完全在用户空间中运行.
就性能而言,Ceph最初的博士论文指出,在24个OSD中,瓶颈是网络交换机的吞吐量,并且性能与节点数量呈线性关系. (参见ceph网站上的出版物部分).那是五年前的事了,从那时起就进行了大量的调整.
关于可靠性问题,该项目由Dreamhost的创始人启动,并在其基础设施中推出.