通过Isilon和VMware部署Hadoop大数据分析(下)

通过IsilonVMware部署Hadoop大数据分析(下)

 

转载请在文首保留原文出处:EMC中文支持论坛https://community.emc.com/go/chinese weibo.png


介绍

 

本文将继续介绍如何通过IsilonVMware部署Hadoop进行大数据分析,并且将通过实例演示大数据分析过程。



 

 

更多信息

 

 

实验操作步骤

 

 

 

7、部署一个Hadoop集群

 

Hadoop集群由三个不同类型的节点构成:master nodesworker nodesclient nodesMaster nodes主要负责Hadoop两个关键功能模块HDFSMap Reduce的监督。当Job Tracker使用Map Reduce进行监控和调度数据的并行处理时,名称节点则负责HDFS监视和调度。Worker nodes负责了机器运行的绝大部分工作,担当所有数据储存和指令计算的工作。每个worker nodes既扮演着数据节点的角色又冲当与他们Master nodes通信的守护进程。

 

本次只搭建一个最简单的Hadoop集群,包括搭建master nodesworker nodes。配置步骤为:在VMware vSphere Web Client中点击“Big Data Extensions”,点击“Create a New Big Data Cluster”,操作步骤如下图:

 

untitled.png

 

 

在弹出窗口输入信息时,具体如下:

 

Hadoop Distribution:输入apache

Deployment Type:选择compute-only Hadoop Cluster

DataMaster URL:输入Isilon群集HDFS名称节点(Name NodeRPC  URL

ComputeMaster Node GroupResource template:选择Small

Worker Node GroupNumber of nodes:选择1

                                 Resource template:选择Small

Client Node GroupNumber of nodes:选择0

                               Resource template:选择Small

Hadoop topology:选择HOST_AS_RACK

Network:选择Netpool(步骤6已新建)

Resources:选择Big Data Cluster                         

 

Untitled_2.png


Untitled_3.png

 

 

 

 

8、修改master nodes密码

 

由于Hadoop master nodes的初始密码为随机分配的字符,因此建议第一次登录Hadoop集群后修改原始密码。步骤是:点击在VMware vSphere Web Client中点击“Big Data Extensions”,点击“Big Data Clusters”,点击“Cluster1”,点击“Cluster1_ComputeMaster_0”,点击“Action”菜单中的“Open Console”选项。如图:


Untitled_4.png

 

 

在弹出窗口,记录下master node的初始密码,如图:

 

Untitled_5.png

 

 

使用SSH登录到Master nodesMaster nodesIP地址可以在vSphere client上查看到。通过初始密码登录,然后修改初始密码:

 

 

Untitled_6.png

Untitled_7.png

 

通过以上8个步骤即完成了在IsilonVMware部署Hadoop的全部配置步骤。下面我们将演示如何通过Hadoop进行数据分析。

 

 

 

 

 

 

实例演示Hadoop wordcount程序

 

 

Wordcount程序是Hadoop中自带的软件,允许用户运行Hadoop map reduce来分析文本文件。Wordcount程序可以演示Hadoop如何在大数据环境中进行数据分析。在确保Hadoop已经正确安装、配置以及运行之后,即可以进行Hadoop wordcount演示。

 

 

1、在IsilonHadoop目录(本例为\ifs\hadoop)中创建二个文件夹InputOutput

 

 

Untitled_8.png

 

 

2、拷贝一个文本文件到Input文件夹。本例拷贝了一个VMware vCenter服务器的README文件。

 

 

Untitled_9.png

 

 

3、通过SSH登录到Hadoop ComputeMaster,运行命令hadoop jar /usr/lib/hadoop-1.2.1/hadoop-examples-1.2.1.jar wordcount /Input/README.txt /Output/Data。如下图所示:

 

Untitled_10.png

 

 

4、查看Output目录下的Data可以看到数据分析后生成的文件。

 

Untitled_11.png

 

 

5、通过命令hadoopfs -cat /Output/Data/part-r-0000 | grep copyright可以统计出README文件中copyright单词的数量。

 

Untitled_12.png

 

 

6、如果需要查看详细的分析报告,可以在VMware vSphere Web Client中点击“Big Data Extensions”,点击“Big Data Clusters”,右击“Cluster1”,点击“Open MapReduce Status Page”进行查看。

 

Untitled_13.png

 

 

7、完成本次分析后,需要清除分析数据以便下次进行数据分析。

 

 

Untitled_14.png

 

 

 

应用于

 


了解如何通过IsilonVMware搭建一个数据湖,然后部署Hadoop进行大数据分析。