[TOC]
此文档最新版本
简介
Ceph 始于加州大学圣克鲁兹分校的 Sage Weil 的博士学位课题。但从 2010 年 3 月下旬起,可以在 Linux 主流内核中找到 Ceph (从 2.6.34 内核起)。 Ceph 不仅仅是一个文件系统,还是一个有企业级功能的对象存储生态环境。向上提供C/C++ api、CephFS、EBS、S3/Swift等丰富的功能。 本文将介绍使用 ceph deploy 工具在 centos7 上进行部署的方法.
架构划分
Ceph 生态系统架构可以划分为四部分,如下图所示。
Clients
客户端(数据用户)
MDS-cluster
Metadata server cluster,元数据服务器(缓存和同步分布式元数据)。
Ceph 元数据服务器( MDS )为 Ceph 文件系统存储元数据(也就是说,Ceph 块设备和 Ceph 对象存储不使用MDS )。元数据服务器使得 POSIX 文件系统的用户们,可以在不对 Ceph 存储集群造成负担的前提下,执行诸如 ls、find 等基本命令。
OSD-cluster
Object storage cluster,对象存储集群(将数据和元数据作为对象存储,执行其他关键职能)。 Ceph OSD 守护进程( Ceph OSD )的功能是存储数据,处理数据的复制、恢复、回填、再均衡,并通过检查其他OSD 守护进程的心跳来向 Ceph Monitors 提供一些监控信息。当 Ceph 存储集群设定为有2个副本时,至少需要2个 OSD 守护进程,集群才能达到 active+clean 状态( Ceph 默认有3个副本,但你可以调整副本数)。
Monitor-Cluster
Cluster monitors,集群监视器(执行监视功能)。 Ceph Monitor维护着展示集群状态的各种图表,包括监视器图、 OSD 图、归置组( PG )图、和 CRUSH 图。 Ceph 保存着发生在Monitors 、 OSD 和 PG上的每一次状态变更的历史信息(称为 epoch )。
Ceph 存储集群至少需要一个 Ceph Monitor 和两个 OSD 守护进程。而运行 Ceph 文件系统客户端时,则必须要有元数据服务器( Metadata Server )。
Ceph 把客户端数据保存为存储池内的对象。通过使用 CRUSH 算法, Ceph 可以计算出哪个归置组(PG)应该持有指定的对象(Object),然后进一步计算出哪个 OSD 守护进程持有该归置组。 CRUSH 算法使得 Ceph 存储集群能够动态地伸缩、再均衡和修复。
部署环境拓扑
操作系统: CentOS 7.2 Ceph版本: Jewel 四台虚拟机,部署拓扑如下。
环境准备
安装Ceph部署工具。
dfs1作为ceph-deploy的部署管理节点,在dfs1上添加ceph yum源,安装ceph-deploy。 如果 ceph-deploy 以某个普通用户登录,那么这个用户必须有无密码使用 sudo 的权限。
红帽包管理工具(RPM)
sudo yum install -y yum-utils && sudo yum-config-manager --add-repo https://dl.fedoraproject.org/pub/epel/7/x86_64/ && sudo yum install --nogpgcheck -y epel-release && sudo rpm --import /etc/pki/rpm-gpg/RPM-GPG-KEY-EPEL-7 && sudo rm /etc/yum.repos.d/dl.fedoraproject.org*
把软件包源加入软件仓库。用文本编辑器创建一个 YUM (Yellowdog Updater,Modified) 库文件,其路径为 /etc/yum.repos.d/ceph.repo 。
sudo vim /etc/yum.repos.d/ceph.repo
把如下内容粘帖进去,最后保存到 /etc/yum.repos.d/ceph.repo 文件中。
[ceph-noarch] name=Ceph noarch packages baseurl=http://download.ceph.com/rpm-jewel/el7/noarch/ enabled=1 gpgcheck=1 type=rpm-md gpgkey=https://download.ceph.com/keys/release.asc
更新软件库并安装 ceph-deploy :
sudo yum update && sudo yum install ceph-deploy
NTP服务
在四台机器上全都执行。 确保在各 Ceph 节点上启动了 NTP 服务,并且要使用同一个 NTP 服务器。
yum install -y ntp ntpdate ntp-doc systemctl start ntpd.service systemctl enable ntpd.service
建立work账户 && SSH相关
在四台机器上全都执行。
work账号必须能够通过 SSH 无密码地访问各 Ceph 节点
work账号在所有节点拥有免密码使用sudo的权限. 部署操作使用work账号操作.
无密码使用sudo权限
在 /etc/sudoers 中添加work那一行,最终应该这样:
... ## Allow root to run any commands anywhere root ALL=(ALL) ALL work ALL=(root) NOPASSWD:ALL ...
注意,如出现设置完成以后,仍无法免密码使用sudo的情况,那先运行 groups 命令,确认自己只属于 work 组里面.
openssh-server 服务
yum install -y openssh-server systemctl start sshd.service # 启动sshd service systemctl enable sshd.service # 设置sshd开机启动
无密码 SSH 登录
自己百度.
其他设置
禁用requiretty。
在 CentOS 和 RHEL 上执行 ceph-deploy 命令时可能会报错。如果你的 Ceph 节点默认设置了 requiretty ,执行 sudo visudo 禁用它,并找到 Defaults requiretty 选项,把它改为 Defaults:ceph !requiretty 或者直接注释掉,这样 ceph-deploy 就可以用之前创建的用户(创建部署 Ceph 的用户 )连接了。
关闭防火墙。
systemctl stop firewalld.service systemctl disable firewalld.service
SELINUX
在 CentOS 和 RHEL 上, SELinux 默认为 Enforcing 开启状态。为简化安装,我们建议把 SELinux 设置为 Permissive 或者完全禁用,也就是在加固系统配置前先确保集群的安装、配置没问题。用下列命令把 SELinux 设置为 Permissive:
sudo setenforce 0
要使 SELinux 配置永久生效(如果它的确是问题根源),需修改其配置文件 /etc/selinux/config 。
优先级/首选项
确保你的包管理器安装了优先级/首选项包且已启用。在 CentOS 上需要安装 EPEL。
sudo yum install yum-plugin-priorities
安装
安装错误清理
如果在某些地方碰到麻烦,想从头再来,可以用下列命令清除配置:
ceph-deploy purgedata {ceph-node} [{ceph-node}] ceph-deploy forgetkeys
用下列命令可以连 Ceph 安装包一起清除:
ceph-deploy purge {ceph-node} [{ceph-node}]
例如:
ceph-deploy purge dfs1 dfs2 dfs3 dfs4
如果执行了 purge ,你必须重新安装 Ceph 。
配置 mirror 加速安装过程
因ceph国外源速度很慢,同时不稳定,会导致安装失败,可以配置国内源.
按照操作系统,要装的版本,在所有机器上,不使用repo默认 yum 配置,/etc/yum.repos.d/ceph.repo 配置文件更改如下:
[ceph] name=Ceph packages for x86_64 baseurl=http://mirrors.ustc.edu.cn/ceph/rpm-jewel/el7/x86_64 enabled=1 priority=1 gpgcheck=1 type=rpm-md gpgkey=http://mirrors.ustc.edu.cn/ceph/keys/release.asc [ceph-noarch] name=Ceph noarch packages baseurl=http://mirrors.ustc.edu.cn/ceph/rpm-jewel/el7/noarch enabled=1 priority=1 gpgcheck=1 type=rpm-md gpgkey=http://mirrors.ustc.edu.cn/ceph/keys/release.asc [ceph-source] name=Ceph source packages baseurl=http://mirrors.ustc.edu.cn/ceph/rpm-jewel/el7/SRPMS enabled=0 priority=1 gpgcheck=1 type=rpm-md gpgkey=http://mirrors.ustc.edu.cn/ceph/keys/release.asc
参考: http://docs.ceph.com/docs/master/install/get-packages/#rpm-packages
国内镜像源: http://bbs.ceph.org.cn/?/page/image
注意,如果中途安装失败,使用 ceph-deploy purge xxx 命令清楚过数据,则这个文件会被备份到 /etc/yum.repos.d/ceph.repo.rpmsave,再次安装前,需先将这个文件恢复,以加速安装过程.
集群部署
创建操作目录
先在管理节点上创建一个目录,用于保存 ceph-deploy 生成的配置文件和密钥对。
mkdir ceph-cluster cd ceph-cluster
192.168.1.102 dfs1 192.168.1.103 dfs2 192.168.1.104 dfs3 192.168.1.105 dfs4
之后的部署,都是以hostname来进行操作。
注意! hostname里面的机器名字应该和机器的真实hostname相同. 此版本ceph生成文件按照机器hostname生成,而查找此文件是按照hosts文件里面查找,最终出现文件找不到(示例: No such file or directory /var/run/ceph/ceph-mon.dfs2.asok).
创建集群
创建集群,在dfs2、dfs3、dfs4上部署monitor。
ceph-deploy new dfs2 dfs3 dfs4
在当前目录下用 ls 和 cat 检查 ceph-deploy 的输出,应该有一个 Ceph 配置文件、一个 monitor 密钥环和一个日志文件。详情见 ceph-deploy new -h 。
更改配置
如下示例把 ./ceph.conf 里的默认副本数从 3 改成 2,把下面这行加入 [global] 段:
osd pool default size = 2
安装Ceph
ceph-deploy install dfs1 dfs2 dfs3 dfs4
[注意]
安装过程中可能会报如下错误:
- [ceph_deploy][ERROR ] RuntimeError: NoSectionError: No section: 'ceph' 执行 sudo yum remove ceph-release 即可,重新安装即可。
- 超时失败,No data was received after 300 seconds 因为ceph源速度太慢,ceph-deploy端报超时的错误。 直接到各节点执行如下命令:
sudo rpm --import https://download.ceph.com/keys/release.asc && sudo rpm -Uvh --replacepkgs https://download.ceph.com/rpm-jewel/el7/noarch/ceph-release-1-0.el7.noarch.rpm && sudo yum -y install ceph ceph-radosgw等待安装完成,再重新执行ceph-deploy安装即可。
配置初始 monitor(s)、并收集所有密钥:
ceph-deploy mon create-initial
完成上述操作后,当前目录里应该会出现这些密钥环:
{cluster-name}.client.admin.keyring
{cluster-name}.bootstrap-osd.keyring
{cluster-name}.bootstrap-mds.keyring
{cluster-name}.bootstrap-rgw.keyring
存储相关服务部署
部署OSD节点
将dfs2、dfs3、dfs4作为集群的OSD节点,在这三台机器上创建目录。
ssh dfs2 sudo mkdir -p /opt/data/ceph/osd0 sudo chown -R ceph.ceph /opt/data/ceph exit ssh dfs3 sudo mkdir -p /opt/data/ceph/osd1 sudo chown -R ceph.ceph /opt/data/ceph exit ssh dfs4 sudo mkdir -p /opt/data/ceph/osd2 sudo chown -R ceph.ceph /opt/data/ceph exit
prepare and activate OSDs:
ceph-deploy osd prepare dfs2:/opt/data/ceph/osd0 dfs3:/opt/data/ceph/osd1 dfs4:/opt/data/ceph/osd2 ceph-deploy osd activate dfs2:/opt/data/ceph/osd0 dfs3:/opt/data/ceph/osd1 dfs4:/opt/data/ceph/osd2
新版本的Ceph支持的默认存储FS为XFS,如果使用ext4的话,需要重新挂载,加入user_xattr参数( ceph.conf 配置文件的 [osd] 段下加入: filestore xattr use omap = true)。
参考 http://docs.ceph.org.cn/rados/configuration/filesystem-recommendations/#index-1
配置文件和admin秘钥部署
ceph-deploy admin dfs1 dfs2 dfs3 dfs4
确保对 ceph.client.admin.keyring 有正确的操作权限。(尽量在每台机器上都执行)
sudo chmod +r /etc/ceph/ceph.client.admin.keyring
检查集群的健康状况
ceph health
添加元数据服务
我们将元数据服务放在dfs1上。
ceph-deploy mds create dfs1
当前生产环境下的 Ceph 只能运行一个元数据服务器。你可以配置多个,但现在Ceph尚未为多个元数据服务器的集群提供商业支持。
RGW对象网关组件部署
- 安装 CEPH 对象网关 在dfs1节点的的工作目录执行如下命令,在 dfs1 上安装 Ceph 对象网关软件包。
ceph-deploy install --rgw dfs1
- 新建 CEPH 对象网关实例 执行如下命令:
ceph-deploy rgw create dfs1
一旦网关开始运行,你就可以通过 7480 端口来访问它(比如 http://dfs1:7480 )。
RGW默认监听7480端口,可以更改dfs1节点上ceph.conf内与rgw相关的配置,详细配置参照官网文档。
注意,ceph默认不对索引数据写入进行分片,导致小文件大量写入成为瓶颈. 如果有大量小文件持续写入的情景,需先设置分片数(rgw_override_bucket_index_max_shards),再创建bucket.
- 简单测试
curl http://dfs1:7480
应答如下:
<?xml version="1.0" encoding="UTF-8"?> <ListAllMyBucketsResult xmlns="http://s3.amazonaws.com/doc/2006-03-01/"> <Owner> <ID>anonymous</ID> <DisplayName></DisplayName> </Owner> <Buckets> </Buckets> </ListAllMyBucketsResult>
动态扩容
Ceph支持动态增加OSD、monitor等组件,自动进行数据的均衡操作。详细操作请参照官网文档。
使用
块设备简单使用
在dfs1上挂载一个2G的块设备。 创建块设备的image,并将该image映射为块设备。
rbd create foo --size 2048 -m 192.168.1.103 --image-format 2 --image-feature layering sudo rbd map foo --name client.admin -m 192.168.1.103 -k /etc/ceph/ceph.client.admin.keyring
创建文件系统,挂载之后就可以使用了。
sudo mkfs.ext4 /dev/rbd/rbd/foo mkdir /opt/data/ceph/ebs_foo sudo mount /dev/rbd/rbd/foo /opt/data/ceph/ebs_foo
用df -h查看,如下所示:
/dev/rbd0 2.0G 6.0M 1.8G 1% /opt/data/ceph/ebs_foo
CephFS 简单使用
创建文件系统
虽然已创建了元数据服务器(存储集群快速入门),但如果没有创建存储池和文件系统,它是不会变为活动状态的。
ceph osd pool create fs_data 16 ceph osd pool create fs_Meta 16 ceph fs new fs_kernel fs_Meta fs_data
创建密钥文件
Ceph 存储集群默认启用认证,你应该有个包含密钥的配置文件(但不是密钥环本身)。用下述方法获取某一用户的密钥:
cat ceph.client.admin.keyring
[client.admin] key = AQCj2YpRiAe6CxAA7/ETt7Hcl9IyxyYciVs47w==
- 打开文本编辑器。把密钥粘帖进去:
echo "AQCj2YpRiAe6CxAA7/ETt7Hcl9IyxyYciVs47w==" > admin.secret
内核文件系统
把 Ceph FS 挂载为内核驱动。
mkdir /opt/data/ceph/fs_kernel sudo mount -t ceph 192.168.1.103:6789:/ /opt/data/ceph/fs_kernel -o name=admin,secretfile=admin.secret
用户空间文件系统(FUSE)
把 Ceph FS 挂载为用户空间文件系统( FUSE )。
sudo mkdir /opt/data/ceph/fs_fuse sudo ceph-fuse -k ./ceph.client.admin.keyring -m 192.168.1.103:6789 /opt/data/ceph/fs_fuse
对象存储使用
S3功能配置
- 新建用户和 KEYRING 为每一个实例生成一个 Ceph 对象网关用户名和key. 举一个典型实例,我们将使用 client.radosgw 后使用 gateway 作为用户名,在 dfs1 的 /home/work/ceph-cluster 目录下执行:
sudo ceph auth get-or-create client.radosgw.gateway osd 'allow rwx' mon 'allow rwx' -o /etc/ceph/ceph.client.radosgw.keyring
- 创建存储池
最新版本不用手工创建,会自动创建.
sudo ceph osd pool create .rgw 128 128 sudo ceph osd pool create .rgw.root 128 128 sudo ceph osd pool create .rgw.control 128 128 sudo ceph osd pool create .rgw.gc 128 128 sudo ceph osd pool create .rgw.buckets 128 128 sudo ceph osd pool create .rgw.buckets.index 128 128 sudo ceph osd pool create .rgw.buckets.extra 128 128 sudo ceph osd pool create .log 128 128 sudo ceph osd pool create .intent-log 128 128 sudo ceph osd pool create .usage 128 128 sudo ceph osd pool create .users 128 128 sudo ceph osd pool create .users.email 128 128 sudo ceph osd pool create .users.swift 128 128 sudo ceph osd pool create .users.uid 128 128
完成上述步骤之后,执行下列的命令确认前述存储池都已经创建了:
rados lspools
sudo radosgw-admin user create --uid="testuser" --display-name="First User"
上述命令的输出结果类似下面这样:
{ "user_id": "testuser","display_name": "First User","email": "","suspended": 0,"max_buckets": 1000,"auid": 0,"subusers": [],"keys": [ { "user": "testuser","access_key": "90WUIXXUW8P25TS0QQX0","secret_key": "ckFtAughCWmhDOi8jmBf0nchUkAyODvNetuOB45T" } ],"swift_keys": [],"caps": [],"op_mask": "read,write,delete","default_placement": "","placement_tags": [],"bucket_quota": { "enabled": false,"max_size_kb": -1,"max_objects": -1 },"user_quota": { "enabled": false,"temp_url_keys": [] }
- 访问验证
sudo yum install python-boto
新建一个python文件,比如 s3_test.py,添加如下内容:
#coding:utf-8 import boto import boto.s3.connection access_key = "90WUIXXUW8P25TS0QQX0" secret_key = 'ckFtAughCWmhDOi8jmBf0nchUkAyODvNetuOB45T' conn = boto.connect_s3( aws_access_key_id = access_key,aws_secret_access_key = secret_key,host = 'dfs1',port = 7480,is_secure=False,calling_format = boto.s3.connection.OrdinaryCallingFormat(),) bucket = conn.create_bucket('my-new-bucket2') for bucket in conn.get_all_buckets(): print "%s\t%s" % (bucket.name,bucket.creation_date)
执行结果:
my-new-bucket2 2016-08-12T04:38:01.000Z