Hbase使用总结

背景

HBase是一个高可靠性、高性能、可伸缩的分布式存储系统：
• HBase是一个构建在HDFS上的分布式NoSQL数据库；
• HBase是基于Google BigTable模型开发的，典型的key/value系统；
• 具有松散的表结构；原生海量数据分布式存储；支持随机查询、范围查询
• 高吞吐，低延迟；
• 列存储，多版本，增量导入，多维删除

• HDFS Vs HBase：
• Hadoop是一个高容错、高延时的分布式文件系统和高并发的批处理系统，
不适用于提供实时计算；
• HBase是可以提供实时计算的分布式数据库，数据被保存在HDFS分布式文件
系统上，由HDFS保证其高容错性

HDFS Vs HBase：
• HBase上的数据是以StoreFile(HFile)二进制流的形式存储在HDFS上block块儿中
• HDFS并不知道的hbase存的是什么，它只把存储文件视为二进制文件，也就
是说，hbase的存储数据对于HDFS文件系统是透明的

HBase特性：
• 大：一个表可以有数十亿行，上百万列；
• 无模式：每行都有一个可排序的主键和任意多的列，列可以根据需要动态的增加，同一张
表中不同的行可以有截然不同的列；
• 面向列：面向列（族）的存储和权限控制，列（族）独立检索；
• 稀疏、多维、排序的map：空（null）列并不占用存储空间，表可以设计的非常稀疏；每个
单元中的数据可以有多个版本，默认情况下版本号自动分配，是单元格插入时的时间戳；
• 数据类型单一：Hbase中的数据都是字符串，没有类型。
• 强一致性读写:HBase 不是“最终一致性”数据存储。这让它很适合高速计数聚合类任务；
• 自动分片(Automatic sharding)： HBase 表通过 region 分布在集群中。数据增长时，region
会自动分割并重新分布；
• RegionServer 自动故障转移和负载均衡；
• Hadoop/HDFS 集成：HBase 支持开箱即用地支持 HDFS 作为它的分布式文件系统；
• MapReduce： HBase 通过 MapReduce 支持大并发处理；
• 实时、随机地大数据访问；HBase内部使用LSM-tree(log-structured merge-tree)作为数据存
储架构，LSM-tree周期性地合并小文件到较大的文件，以减少硬盘寻址
• Java 客户端 API：HBase 支持易于使用的 Java API 进行编程访问；
• Thrift/REST API：HBase 也支持 Thrift 和 REST 作为非 Java 前端的访问；
• Block Cache 和 Bloom Filter：对于大容量查询优化， HBase 支持 Block Cache 和 Bloom Filter
• 快照支持

面向列的数据存储 Vs 面向行的数据存储：
HBase的逻辑视图
面向行的数据存储面向列的数据存储
对于记录的增加/修改效率较高对于读取数据效率较高
读取包含整个行的页面只需要读取列
最适合用于OLTP 对于OLTP还没有优化
将一行中所有的值一起序列化，
然后是下一行的值，等等
将列中的值一起序列化，依次类
推
行数据存储在内存或磁盘中的连
续页面中
列以页面的列式存储在内存或磁
盘中

参考文献及资料

1、 Apache Spark support，链接

目录

背景

参考文献及资料