简单回顾hbase

本文对部分hbase的知识点做个简单的文章索引。通过一些不错的博客来回顾一下hbase的相关知识。

1. hbase原理回顾

Hbase基础原理

HBase 深入浅出

这两个关于Hbase的博客重点推荐下:

有态度的HBase

HBase 深入浅出

这里再放一些引用的图,方便回顾,重点搞清楚其存储结构和数据模型就行啦。

1.1 基本存储结构

1.2 数据模型

hbase原理分析

1. 介绍

HBase是一个构建在HDFS上的分布式列存储系统,基于Google BigTable模型开发的,是典型的key/value系统。支持海量结构化数据存储、横向扩展、高可用

2. hbase数据模型

hbase以表的方式在HBase存储数据的。表是由行和列构成的,所有的列是从属于某一个列族的。行和列的交叉点称之为cell,cell是版本化的。cell的内容是不可分割的字节数组。

表的行键也是一段字节数组,所以任何东西都可以保存进去,不论是字符串或者数字。HBase的表是按key排序的,排序方式之针对字节的。所有的表都必须要有主键-key.

2.1 概念视图......

使用flume将kafka数据sink到HBase

1. hbase sink介绍

如果还不了解flume请查看我写的其他flume下的博客。

接下来的内容主要来自flume官方文档的学习。

顺便也强烈推荐flume 1.6 官方API

hbase的sink主要有以下两种。两种方式都提供和HBASE一样的一致性保证,即行级原子性

1.1 HbaseSink

agent的配置时提供两种序列化模式:

SimpleHbaseEventSerializer: 将整个事件body部分当做完整的一列写入hbase

RegexHbaseEventSerializer: 根据正则表达式将event body拆分到......

hbase1.2.2安装使用(hadoop2.7.2环境)

1. 介绍

hbase的安装请先确保和hadoop版本一致。具体可以查看hbase官方文档中的Hadoop version support matrix

安装hbase的前提是你已经成功安装hadoop。如果不会可以查看我的文章hadoop2.7.2+spark1.6.2环境搭建教程

我安装的集群规划如下表:

hostname

ip

hadoop role

hbase role

mysql3

10.45.10.33

namenode

master

mysql4

10.45.10.34

datanode

Region Server

mysql5

......