我有一个HBase表,我正在写行行键,如:
<prefix>~1 <prefix>~2 <prefix>~3 ... <prefix>~9 <prefix>~10
HBase shell上的扫描给出了一个输出:
<prefix>~1 <prefix>~10 <prefix>~2 <prefix>~3 ... <prefix>~9
应该如何设计行键,以便带有<前缀>〜10键的行最后?我正在寻找一些推荐的方法或更流行的设计HBase行键的方式.
应该如何设计行键,使带有〜10的行最后?
您以这种方式看到扫描输出,因为HBase中的行键保持排序为lexicographically,而不考虑插入顺序.这意味着它们根据其字符串表示进行排序.请记住,HBase中的行键被视为具有字符串表示形式的字节数组.表中最先显示的是最低的行键.这就是为什么10出现在2之前,依此类推.请参阅此page上的章节了解更多信息.
当您使用零填充整数时,它们的自然排序保持不变,同时按字典排序,这就是为什么您看到扫描顺序与插入数据的顺序相同.为此,您可以按照@shutty的建议设计您的行键.
我正在寻找一些推荐的方法或更流行的设计HBase行键的方式.
为了设计好的设计,需要遵循一些一般的指导方针:
>保持行键尽可能的小.
>避免使用单调增加的行键,如时间戳等.这是一个差的shecma设计,并导致RegionServer热点.如果你不能避免使用某种东西,就像哈希或盐渍,以避免热点.
>尽可能避免使用字符串作为行键.与其整数或长表示相比,数字的字符串表示需要更多的字节.例如:长为8字节.您可以将这8个字节中的无符号数字存储为18,446,744,073,709,551,615.如果您将此号码存储为字符串 – 假设每个字符为一个字节,则需要将近3个字节.
>使用一些机制,如散列,以便统一分配行,以防您的区域不均匀加载.您也可以创建预先拆分的表来实现此目的.
有关rowkey设计的更多信息,请参阅link.
HTH