hadoop3.0新特性

1. 前言

PS: 新特性主要翻译自官网:Apache Hadoop 3.0.0-alpha1——Overview

2. 概览

Apache Hadoop 3.0.0-alpha1 在hadoop-2.x的基础上集成了大量的新特性。不过这个alpha版本不能保证API的稳定性,需要注意。

3. 关于JAVA版本

必须使用java8及以上版本才能使用hadoop3.0

4. 支持erasure encoding纠错码

HDFS支持纠编码erasure encoding,简称EC技术。EC技术可以防止数据丢失,又可以解决HDFS存储空间翻倍的问题。劣势是:

......

使用terasort来对mapreduce性能测试

1. 介绍

首先假设你已经安装好了hadoop。

从maven仓库下载符合自己版本的测试jar,并且放到服务器上

2. 使用teragen生成数据

hadoop jar hadoop-*-examples.jar teragen 参数1 参数2

teragen的参数解释:

参数1:表示要产生的数据的行数。Teragen每行数据的大小是100B。

要产生1T的数据,需要的行数=102410241024*1024/100=10995116277行

参数2 : 产生的数据放置的文件夹地址

默认的teragen的启动的map数比较少,只有2个,如果要指定map数......

hadoop2.7的HA配置

1. 介绍

之前写过一篇关于hadoop2.7安装的文章,但是里面没有说如何配置HA避免单点故障。今天准备总结下。

较早版本的hadoop虽然也支持通过secondarynamenode来恢复namenode,但是其原理是基于检查点的,仍然会丢数据。新的基于主备的HA通过JNs实时同步edit log可以避免数据丢失的情况。

主要参考资料:HDFS High Availability Using the Quorum Journal Manager

我的机器配置如下:

hostname

role

a1

namenode active,datan......

读写HDFS操作例子

1. 介绍

采用hadoop 2.7.2的API

2. 代码

我们使用MAVEN工程,如果需要哪些依赖还不清楚,请参考我的文章idea中调试hadoop mapreduce程序(windows)

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FSDataInputStream;

import org.apache.hadoop.fs.FSDataOutputStream;

import org.apache.hadoop.fs.FileSystem;

import org.ap......

idea中调试hadoop mapreduce程序(windows)

1. 介绍

本文主要参考资料为:IDEA 调试 Hadoop程序

2. win下安装hadoop

我们这里使用2.7.2版本。首先到hadoop官方网站下载hadoop。

PS: 本教程前提是你已经安装了JDK。

在windows下解压后配置如下的环境变量:

HADOOP_HOME:D:\soft\dev\hadoop-2.7.2

HADOOP_BIN_PATH:%HADOOP_HOME%\bin

HADOOP_PREFIX:%HADOOP_HOME%

在Path后面加上%HADOOP_HOME%\bin;%HADOOP_HOME%\sbin;

......