Saturday, 15 November 2014

執行 Hadoop MapReduce 字數統計 (Word Count)範例程式

Preparation

要執行MapReduce程式之前,先安裝好Hadoop並將服務啟動,接著在準備好要進行字數統計的資料,可以自行新增或自己上網找,這裡我會提供三個文件的載點,請下載Plain Text UTF-8。

Step by Step

首先,將剛剛下載來的三份文件放在 input 這個目錄底下
$mkdir input_txt
$mv pg20417.txt pg4300.txt pg5000.txt input_txt
接著把整個 input 目錄放到Hadoop File System (HDFS)
$hadoop fs -copyFromLocal input_txt user/hduser/input_txt
$hadoop fs -ls
-rw-r--r--   1 hduser supergroup     710771 2014-10-03 16:13 input_txt/pg20417.txt
-rw-r--r--   1 hduser supergroup    1573150 2014-10-03 16:13 input_txt/pg4300.txt
-rw-r--r--   1 hduser supergroup    1423803 2014-10-03 16:13 input_txt/pg5000.txt
最後一步就是執行Word Count
$hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /user/hduser/input_txt /user/hduser/output_txt

output_txt 可以不用事先建立,在完成了這個MapReduce Job 之後Hadoop會自己建立,可以到Hadoop 的 WebUI 確認輸出的結果

Related Posts:

  • Git Flow 開發流程 Preface 開始工作上班之後,必須照著公司軟體開發流程走。每間公司可能會有不同的軟體開發流程,所利用的軟體版本控制工具也可能不同。這裡介紹的軟體版本控制工具為 Git。所採用的流程類似 Git Flow。 1. 開發人員會先從原本的 master branch 或 develop bran… Read More
  • Git 回復 commit 為 staging Preface 先前已經有介紹過 Git flow 開發流程,Git 的開發過程中會經常地使用 commit 的這個動作。如此一來一定會很常遇到要把最近一次的 commit 回復到 staging 進行重新修改,以利於把這一系列有相關的修改統整為一次的 commit。便於 code review… Read More
  • Linux USB隨身碟開機 你需要了解,如果有一天,電腦被充斥在網路上的病毒弄掛了,死在那邊不動,你要怎麼辦?裡面一堆重要的資料,在不能開機的情況下,你要怎麼救回你的資料?將一個Live作業系統安裝到你的USB裡面,在使用那隻USB隨身碟開機,把重要的資料拿回來!這裡要安裝的是Linux 作業系統! 事前準備 … Read More
  • Git 編輯修改 commit message Preface 在使用 Git 或多或少應該會遇到這樣的狀況,也就是 commit message 少寫了一些資訊,造成了團隊其他成員的困擾。此時養成紀錄完整的 commit message 是很重要的。如果有時候難免會發生,這裡就簡單的記錄一下,編輯修改 commit message 的方法。… Read More
  • Hadoop copyFromLocal: `/user/hduser/ ': No such file or directory 找不到路徑的問題 Preface 當安裝好Hadoop之後,想要簡單的測試一下字數統計(WordCount)的MapReduce,必定要先準備好資料,放到Hadoop的HDFS裡面,第一次進行將檔案放到HDFS的時候卻遇到了"copyFromLocal: `/user/hduser/gutenberg': N… Read More

0 comments:

Post a Comment