广告

本站里的文章大部分经过自行整理与测试

2016年4月30日星期六

Ubuntu - Hadoop 2.7.1 - WordCount

 #  查看 hadoop 运行的任务
$ jps

查看 Namenode : http://localhost:50070/
查看 Secondary Namenode : http://localhost:50090/ 
查看 MapReduce : http://localhost:8088/

WordCount 例子
1. 准备文件数据
$ cd ~
$ mkdir input
$ sudo gedit input/test1.txt
# 写入 hello world
$ sudo gedit input/test2.txt
# 写入 hi world
...

2. 格式化 HDFS (只会用一次)
$ hadoop-2.7.1/bin/hdfs namenode -format

* 如果出现 datanode 启动不了, 建议将 datanode 与 namenode 的 HDFS 撤除掉,
然后 format namenode 的 HDFS 

3. 启动 hadoop
$ hadoop-2.7.1/sbin/start-dfs.sh
$ hadoop-2.7.1/sbin/start-yarn.sh


4. 操作 HDFS 文件系统 (hadoop-2.7.1/bin/hadoop)
# 看报告
$ hadoop-2.7.1/bin/hadoop dfsadmin -report  

# HDFS 弄新的文件夹 /tmp
$ hadoop-2.7.1/bin/hadoop fs -mkdir /tmp
# HDFS 里弄新的文件夹 /tmp/input
$ hadoop-2.7.1/bin/hadoop fs -mkdir /tmp/input

# 将 ~/input 文件夹输入 HDFS 里的 /tmp 中
$ hadoop-2.7.1/bin/hadoop fs -put input/ /tmp 

# 运行 mapReduce 
$ hadoop-2.7.1/bin/hadoop jar hadoop-2.7.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /tmp/input /output

# 看计算结果
$ hadoop-2.7.1/bin/hadoop fs -ls /
$ hadoop-2.7.1/bin/hadoop fs -cat /output/part-r-00000


# 撤 HDFS /output 文件夹
$ hadoop-2.7.1/bin/hadoop fs -rmr /output

5. 关闭 hadoop
$ hadoop-2.7.1/sbin/stop-dfs.sh
$ hadoop-2.7.1/sbin/stop-yarn.sh


$ hadoop-2.7.1/sbin/stop-all.sh

没有评论:

发表评论