本文共 1092 字,大约阅读时间需要 3 分钟。
HBase 是hadoop的数据库(数据量大,实时),目标是存储并处理大型的数据,具体来讲是用普通的硬件资源,就能处理成千上万的行和列所组成的大型数据。它可以直接使用本地文件或者HDFS,因为稳定性的考虑,推荐使用HDFS。利用HDFS作为其文件存储系统,利用MR来处理Hbase中的海量数据,利用ZK来做HA(高可用)作为其分布式协同服务。
HBase的安装分为三种模式:单机、伪分布式安装、全分布模式安装。其中伪分布式模式是一个运行在单台机器上的分布式模式,此种模式性HBase所有的守护进程都运行在同一个节点。因为分布式模式依赖于HDFS,所有确认HDFS已成功安装并启动。另外,全分布模式需要zookeeper的配置。
HBase常用命令
HBase主从结构。HBase Master负责管理所有的HRegion服务器,而HBase所有的服务器都是通过Zookeeper来协调并处理HBase服务器可能遇到的错误。HBase Master本身并不存储HBase中的任何数据。Hbase逻辑上的表被划分为多个HRegion,然后存储到HRegion server 群中。
所有的数据库文件一般保存在HDFS上,用户通过一些列的HRegion服务器获取这些数据,一台机器上面一般只运行一个HRegion服务器,且每一个区段的HRegion也智慧被一个HRegion服务器维护.
每行列的个数可以不一样
虽然从概念视图上每个表格有很多行组成,但是物理存储来看,它是按照列来保存的。
client请求zk(zk,用于HA,解决单点故障问题)。图中有一个错误,每一个HRegtionServer,只有一个Hlog,不应属于HRegion。
每一个store存在一个目录下,实际就是一个列族 MemStore,内存store,当数据刚写入时是放在内存中的,当溢写时写道StoreFile,而真正的数据是在HFile在HDSF上。StoreFile上有HFile上的元数据。在Region中不会真正的保存数据,真正的数据都在HDSF上面
首先要确保zookeeper已经安装完成,可以用zkServer.sh 查看
start-hbase.sh. 可以通过jps查看hmaster和hregionserver是否启动。
另外可以通过网页:master:60010查看