做网站增加流量,百度公司是国企还是私企,成都网站开发团队,随州建设网站配置环境及有关工具#xff1a;ubuntu10.04 、hadoop0.20.2 、 jdk1.6.0_29 我们的机器有三台#xff0c;一台当作namenode、两台当作datanode#xff1a; namenode#xff1a;IP:192.168.0.25、机器名#xff1a;kiddenzj #xff08;这里的机器名要注意#xff1a;机… 配置环境及有关工具ubuntu10.04 、hadoop0.20.2 、 jdk1.6.0_29 我们的机器有三台一台当作namenode、两台当作datanode namenodeIP:192.168.0.25、机器名kiddenzj 这里的机器名要注意机器名不能包含下划线“_”一开始没注意后来找了半天才发现这个原因 datanodeIP192.168.0.8 、机器名kiddenxcc IP192.168.0.66、机器名 kiddenhw 集群里所有登陆的用户名和密码都要保持相同我在这里创建了名为grid的用户后面的步骤就是在这个用户下进行的。 配置步骤 1安装ssh 输入命令 [java] view plaincopy apt-get install ssh 2SSH配置 SSH配置主要是为了实现在机器间执行指令时不再需要输入密码在所有的机器上建立.ssh目录这里我们建立在/home/grid下面 [html] view plaincopy mkdir .ssh 然后在namenode机器上生成密钥对执行 [html] view plaincopy ssh-keygen -t rsa 然后一直按Enter键就会按照默认选项生成密钥对保存在.ssh/id_rsa文件中。 继续执行如下命令把密钥传递给每个datanode节点 [java] view plaincopy cd ~/.ssh cp id_rsa.pub authorized_keys scp authorized_keys kiddenhw:/home/grid/.ssh scp authorized_keys kiddenxcc:/home/grid/.ssh 然后分别在每台datanode机器上执行如下命令以改变authorized_keys文件的许可权限 [html] view plaincopy chmod 644 authorized_keys 到此从namenode发起的到其他datanode节点的SSH连接就会只需在第一次登录是输入密码以后则不再需要。 可以通过如下命令发起连接 [html] view plaincopy ssh kiddenhw 3jdk的安装(namenode机和datanode机均按此安装) 下载jdk-6u29-linux-i586.bin,安装到/usr/java下cd到usr/java下 [python] view plaincopysudo chmod ux jdk-6u29-linux-i586.bin sudo ./jdk-6u29-linux-i586.bin 接下来要设置java的环境变量输入命令 [javascript] view plaincopy sudo gedit /etc/profile 在文件的最后添加以下语句 [html] view plaincopy JAVA_HOME/usr/java/jdk1.6.0_29 export JRE_HOME/usr/java/jdk1.6.0_29/jre export CLASSPATH.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH export PATH$JAVA_HOME/bin:$JRE_HOME/bin:$PATH 保存退出然后执行source /etc/profile即可。 输入java -version 命令出现如下信息就表示配置成功 [java] view plaincopy java version 1.6.0_29 Java(TM) SE Runtime Environment (build 1.6.0_29-b11) Java HotSpot(TM) Server VM (build 20.4-b02, mixed mode) 4hadoop的安装配置(只是在namenode端安装配置完成后namenode可以直接把配置好的hadoop发送到各个datanode端) 在这里下载hadoop-0.20.2.tar.gz然后解压到/home/grid/下即可 在hadoop文的件夹下需要建立几个文件夹如下 这里一开始没有创建结果查看运行信息的时候虽然datanode节点都有进程在运行但livenodes节点依然为0 [html] view plaincopy mkdir tmp mkdir hdfs mkdir hdfs/name mkdir hdfs/data 接下来需要修改hadoop的conf文件夹下的配置信息 修改hadoop-env.sh加入如下语句使得hadoop能够找到java的路径。 [java] view plaincopy export JAVA_HOME/usr/java/jdk1.6.0_2 修改core-site.xml如下 [java] view plaincopy configuration property namefs.default.name/name valuehdfs://kiddenzj:9000/value /property /configuration 修改hdfs-site.xml如下 [cpp] view plaincopy configuration property namedfs.replication/name value1/value /property /configuration 修改mapred-site.xml如下 [java] view plaincopy configuration property namemapred.job.tracker/name valuekiddenzj:9001/value /property /configuration masters里写入作为namenode节点机器的名称我们这里是kiddenzj slaves里写入作为datanode节点的机器名这里是kiddenhw和kiddenxcc 到此hadoop的有关配置已经完成namenode端通过如下命令把配置好的hadoop发送到各个datanode处 [html] view plaincopy scp -r hadoop-0.20.2 kiddenhw:/home/grid scp -r hadoop-0.20.2 kiddenxcc:/home/grid 5修改每台机器上/etc下面的hosts文件也就是写入所有的机器名和对应IP地址包括namenode和datanode节点我们这里修改后如下 [java] view plaincopy 127.0.0.1 localhost 192.168.0.8 kiddenxcc 192.168.0.25 kiddenzj 192.168.0.66 kiddenhw 6 到此基本配置已经完成在namenode端cd到hadoop文件夹下格式化分布式文件系统 [html] view plaincopy bin/hadoop namenode -format 下面接着在namenode端启动hadoop进程 [html] view plaincopy bin/start-all.sh 如果没有其它差错的话hadoop可以正常启动并能够看到如下结果 在namenode端用jps命令查看启动情况如下 [html] view plaincopy gridkiddenzj:~/hadoop-0.20.2$ jps xxxx Jps xxxx Namenode xxxx Secondarynamenode xxxx JobTracker 在datanode端用jps查看启动情况如下 [html] view plaincopy gridkiddenhw:~/hadoop-0.20.2$ jps xxxx Jps xxxx DataNode xxxx TaskTracker 然后可以通过如下地址来查看集群运行状况 [html] view plaincopy http://kiddenzj:50030 http://kiddenzj:50070 pre namecode classhtml http://kiddenhw:50060/pre pre/pre pre/pre pre/pre pre/pre pre/pre pre/pre