HBase原理

HBase是什么

HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。

HBASE的目标是存储并处理大型的数据，更具体来说是仅需使用普通的硬件配置，就能够处理由成千上万的行和列所组成的大型数据。

HBASE是Google Bigtable的开源实现，但是也有很多不同之处。比如：Google Bigtable使用GFS作为其文件存储系统，HBASE利用Hadoop HDFS作为其文件存储系统；Google运行MAPREDUCE来处理Bigtable中的海量数据，HBASE同样利用Hadoop MapReduce来处理HBASE中的海量数据；Google Bigtable利用Chubby作为协同服务，HBASE利用Zookeeper作为协同服务。

与传统数据库的对比

1、传统数据库遇到的问题：

　　1）数据量很大的时候无法存储；　　2）没有很好的备份机制；　　3）数据达到一定数量开始缓慢，很大的话基本无法支撑；

2、HBASE优势：

　　1）线性扩展，随着数据量增多可以通过节点扩展进行支撑；　　2）数据存储在hdfs上，备份机制健全；　　3）通过zookeeper协调查找数据，访问速度快。

HBase集群中的角色

一个或者多个主节点，Hmaster；

多个从节点，HregionServer；

HBase依赖项，zookeeper；

HBase数据模型

在这里插入图片描述

HBase的存储机制

　　HBase是一个面向列的数据库，在表中它由行排序。表模式定义只能列族，也就是键值对。一个表有多个列族以及每一个列族可以有任意数量的列。后续列的值连续存储在磁盘上。表中的每个单元格值都具有时间戳。总之，在一个HBase：

表是行的集合。

行是列族的集合。

列族是列的集合。

列是键值对的集合。

这里的列式存储或者说面向列，其实说的是列族存储，HBase是根据列族来存储数据的。列族下面可以有非常多的列，列族在创建表的时候就必须指定。

HBase 和 RDBMS的比较

在这里插入图片描述

Row Key 行键

与nosql数据库一样，row key是用来表示唯一一行记录的主键，HBase的数据时按照RowKey的字典顺序进行全局排序的，所有的查询都只能依赖于这一个排序维度。访问HBASE table中的行，只有三种方式：

通过单个row key访问；

通过row key的range（正则）

全表扫描

Row key 行键（Row key）可以是任意字符串(最大长度是64KB，实际应用中长度一般为10-1000bytes)，在HBASE内部，row key保存为字节数组。存储时，数据按照Row key的字典序(byte order)排序存储。设计key时，要充分排序存储这个特性，将经常一起读取的行存储放到一起。(位置相关性)