1. 下载jar
从MAVEN仓库下载mapreduce的example。
想看源代码可以在maven工程添加依赖:
<!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-mapreduce-examples -->
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-mapreduce-examples</artifactId>
<version>2.7.2</version>
</dependency>
2. 准备数据
因为是wordcount,所以要提前准备好需要进行分析的文件。
我们分析的文件为84M
# 创建一个目录
hadoop fs -mkdir /wordcount
# 上传文件到HDFS
hadoop fs -put input.log /wordcount
3. 执行wordcount
在服务器上准备好wordcount example的jar包。
执行如下命令:
# 第一个参数是主类名,第二个参数是输入文件所在目录,第三个参数是输出文件所在目录
hadoop jar hadoop-mapreduce-examples-2.7.2.jar wordcount /wordcount /wordcount/output
使用mapreduce总计运行时间为:50秒
参考资料:
1.Maven构建Hadoop工程