简单回顾hbase

本文对部分hbase的知识点做个简单的文章索引。通过一些不错的博客来回顾一下hbase的相关知识。

1. hbase原理回顾

Hbase基础原理

HBase 深入浅出

这两个关于Hbase的博客重点推荐下:

有态度的HBase

HBase 深入浅出

这里再放一些引用的图,方便回顾,重点搞清楚其存储结构和数据模型就行啦。

1.1 基本存储结构

1.2 数据模型

Spark cluster mode和client mode原理浅析

1. 介绍

Spark运行JOB主要有两种模式:

cluster mode: Spark driver在 application的master process中运行。如果和YARN集成,则application master process由YARN管理,在YARN中运行。

client mode:Spark driver在clinet process中运行。如果集成YARN,application master只负责从YARN请求资源。

由此可见,两种模式分别代表了瘦客户端(cluster mode)或者是瘦服务器(client mode)两种模式。

本文主要介......

hadoop3.0新特性

1. 前言

PS: 新特性主要翻译自官网:Apache Hadoop 3.0.0-alpha1——Overview

2. 概览

Apache Hadoop 3.0.0-alpha1 在hadoop-2.x的基础上集成了大量的新特性。不过这个alpha版本不能保证API的稳定性,需要注意。

3. 关于JAVA版本

必须使用java8及以上版本才能使用hadoop3.0

4. 支持erasure encoding纠错码

HDFS支持纠编码erasure encoding,简称EC技术。EC技术可以防止数据丢失,又可以解决HDFS存储空间翻倍的问题。劣势是:

......

使用terasort来对mapreduce性能测试

1. 介绍

首先假设你已经安装好了hadoop。

从maven仓库下载符合自己版本的测试jar,并且放到服务器上

2. 使用teragen生成数据

hadoop jar hadoop-*-examples.jar teragen 参数1 参数2

teragen的参数解释:

参数1:表示要产生的数据的行数。Teragen每行数据的大小是100B。

要产生1T的数据,需要的行数=102410241024*1024/100=10995116277行

参数2 : 产生的数据放置的文件夹地址

默认的teragen的启动的map数比较少,只有2个,如果要指定map数......

hadoop2.7的HA配置

1. 介绍

之前写过一篇关于hadoop2.7安装的文章,但是里面没有说如何配置HA避免单点故障。今天准备总结下。

较早版本的hadoop虽然也支持通过secondarynamenode来恢复namenode,但是其原理是基于检查点的,仍然会丢数据。新的基于主备的HA通过JNs实时同步edit log可以避免数据丢失的情况。

主要参考资料:HDFS High Availability Using the Quorum Journal Manager

我的机器配置如下:

hostname

role

a1

namenode active,datan......