实木餐桌椅移动网站建设,山西省诚信建设网站,用户体验设计方法,西安市建设工程信息网官网文章目录一、解压安装1. 安装包上传2. 解压hadoop安装包二、修改Hadoop相关配置文件2.1. hadoop-env.sh2.2. core-site.xml2.3. hdfs-site.xml2.4. mapred-site.xml2.5. yarn-site.xml2.6. workers三、格式化与启动集群3.1. 格式化HDFS3.2. 启动伪分布集群3.3. 异常解决方案3.4…
文章目录一、解压安装1. 安装包上传2. 解压hadoop安装包二、修改Hadoop相关配置文件2.1. hadoop-env.sh2.2. core-site.xml2.3. hdfs-site.xml2.4. mapred-site.xml2.5. yarn-site.xml2.6. workers三、格式化与启动集群3.1. 格式化HDFS3.2. 启动伪分布集群3.3. 异常解决方案3.4. 再启动集群3.5. 验证集群进程信息3.6. web页面3.7. 域名访问3.8. 停止集群一、解压安装
1. 安装包上传
首先把hadoop的安装包上传到/data/soft目录下
[rootbigdata01 ~]# cd /data/soft/
[rootbigdata01 soft]# ll
total 527024
-rw-r--r--. 1 root root 345625475 Jul 2 21:18 hadoop-3.2.0.tar.gz
drwxr-xr-x. 7 10 143 245 Dec 16 2018 jdk1.8
-rw-r--r--. 1 root root 194042837 Mar 8 2020 jdk-8u202-linux-x64.tar.gz
2. 解压hadoop安装包
[rootbigdata01 soft]# tar -zxvf hadoop-3.2.0.tar.gzhadoop目录下面有两个重要的目录一个是bin目录一个是sbin目录
[rootbigdata01 soft]# cd hadoop-3.2.0
[rootbigdata01 hadoop-3.2.0]# ll
total 184
drwxr-xr-x. 2 1001 1002 203 Jan 8 2019 bin
drwxr-xr-x. 3 1001 1002 20 Jan 8 2019 etc
drwxr-xr-x. 2 1001 1002 106 Jan 8 2019 include
drwxr-xr-x. 3 1001 1002 20 Jan 8 2019 lib
drwxr-xr-x. 4 1001 1002 4096 Jan 8 2019 libexec
-rw-rw-r--. 1 1001 1002 150569 Oct 19 2018 LICENSE.txt
-rw-rw-r--. 1 1001 1002 22125 Oct 19 2018 NOTICE.txt
-rw-rw-r--. 1 1001 1002 1361 Oct 19 2018 README.txt
drwxr-xr-x. 3 1001 1002 4096 Jan 8 2019 sbin
drwxr-xr-x. 4 1001 1002 31 Jan 8 2019 share
[rootbigdata01 hadoop-3.2.0]#
我们看一下bin目录这里面有hdfsyarn等脚本这些脚本后期主要是为了操作hadoop集群中的hdfs和yarn组件的
再来看一下sbin目录这里面有很多start stop开头的脚本这些脚本是负责启动 或者停止集群中的组件的。
其实还有一个重要的目录是etc/hadoop目录这个目录里面的文件主要是hadoop的一些配置文件还是比较重要的。一会我们安装hadoop主要就是需要修改这个目录下面的文件。
因为我们会用到bin目录和sbin目录下面的一些脚本为了方便使用我们需要配置一下环境变量。
[rootbigdata01 hadoop-3.2.0]# vi /etc/profile
.......
export JAVA_HOME/data/soft/jdk1.8
export HADOOP_HOME/data/soft/hadoop-3.2.0
export PATH.:$JAVA_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$PATH
[rootbigdata01 hadoop-3.2.0]# source /etc/profile二、修改Hadoop相关配置文件
进入配置文件所在目录
[rootbigdata01 hadoop-3.2.0]# cd etc/hadoop/
[rootbigdata01 hadoop]#主要修改下面这几个文件
hadoop-env.shcore-site.xmlhdfs-site.xmlmapred-site.xmlyarn-site.xml workers
2.1. hadoop-env.sh
首先修改 hadoop-env.sh 文件增加环境变量信息添加到hadoop-env.sh 文件末尾即可。 JAVA_HOME指定java的安装位置 HADOOP_LOG_DIRhadoop的日志的存放目录
[rootbigdata01 hadoop]# vi hadoop-env.sh
.......
export JAVA_HOME/data/soft/jdk1.8
export HADOOP_LOG_DIR/data/hadoop_repo/logs/hadoop2.2. core-site.xml
修改 core-site.xml 文件 注意 fs.defaultFS 属性中的主机名需要和你配置的主机名保持一致 [rootbigdata01 hadoop]# vi core-site.xml
configurationpropertynamefs.defaultFS/namevaluehdfs://bigdata01:9000/value/propertypropertynamehadoop.tmp.dir/namevalue/data/hadoop_repo/value/property
/configuration2.3. hdfs-site.xml
修改hdfs-site.xml文件把hdfs中文件副本的数量设置为1因为现在伪分布集群只有一个节点
[rootbigdata01 hadoop]# vi hdfs-site.xml
configurationpropertynamedfs.replication/namevalue1/value/property
/configuration2.4. mapred-site.xml
修改mapred-site.xml设置mapreduce使用的资源调度框架
[rootbigdata01 hadoop]# vi mapred-site.xml
configurationpropertynamemapreduce.framework.name/namevalueyarn/value/property
/configuration2.5. yarn-site.xml
修改yarn-site.xml设置yarn上支持运行的服务和环境变量白名单
[rootbigdata01 hadoop]# vi yarn-site.xml
configurationpropertynameyarn.nodemanager.aux-services/namevaluemapreduce_shuffle/value/propertypropertynameyarn.nodemanager.env-whitelist/namevalueJAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME/value/property
/configuration2.6. workers
修改workers设置集群中从节点的主机名信息在这里就一台集群所以就填写bigdata01即可
[rootbigdata01 hadoop]# vi workers
bigdata01配置文件到这就修改好了但是还不能直接启动因为Hadoop中的HDFS是一个分布式的文件系统文件系统在使用之前是需要先格式化的就类似我们买一块新的磁盘在安装系统之前需要先格式化才可以使用。
三、格式化与启动集群
3.1. 格式化HDFS
[rootbigdata01 hadoop]# cd /data/soft/hadoop-3.2.0
[rootbigdata01 hadoop-3.2.0]# bin/hdfs namenode -format如果能看到successfully formatted这条信息就说明格式化成功了。
如果提示错误一般都是因为配置文件的问题当然需要根据具体的报错信息去分析问题。 注意格式化操作只能执行一次如果格式化的时候失败了可以修改配置文件后再执行格式化如果格式化成功了就不能再重复执行了否则集群就会出现问题。 如果确实需要重复执行那么需要把/data/hadoop_repo目录中的内容全部删除再执行格式化 可以这样理解我们买一块新磁盘回来装操作系统第一次使用之前会格式化一下后面你会没事就去格式化一下吗肯定不会的格式化之后操作系统又得重装了。
3.2. 启动伪分布集群
使用sbin目录下的start-all.sh脚本
[rootbigdata01 hadoop-3.2.0]# sbin/start-all.sh
Starting namenodes on [bigdata01]
ERROR: Attempting to operate on hdfs namenode as root
ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.
Starting datanodes
ERROR: Attempting to operate on hdfs datanode as root
ERROR: but there is no HDFS_DATANODE_USER defined. Aborting operation.
Starting secondary namenodes [bigdata01]
ERROR: Attempting to operate on hdfs secondarynamenode as root
ERROR: but there is no HDFS_SECONDARYNAMENODE_USER defined. Aborting operation.
Starting resourcemanager
ERROR: Attempting to operate on yarn resourcemanager as root
ERROR: but there is no YARN_RESOURCEMANAGER_USER defined. Aborting operation.
Starting nodemanagers
ERROR: Attempting to operate on yarn nodemanager as root
ERROR: but there is no YARN_NODEMANAGER_USER defined. Aborting operation.
[rootbigdata01 hadoop-3.2.0]# 执行的时候发现有很多ERROR信息提示缺少HDFS和YARN的一些用户信息。
3.3. 异常解决方案
修改sbin目录下的start-dfs.shstop-dfs.sh这两个脚本文件在文件前面增加如下内容
[rootbigdata01 hadoop-3.2.0]# cd sbin/
[rootbigdata01 sbin]# vi start-dfs.sh
HDFS_DATANODE_USERroot
HDFS_DATANODE_SECURE_USERhdfs
HDFS_NAMENODE_USERroot
HDFS_SECONDARYNAMENODE_USERroot[rootbigdata01 sbin]# vi stop-dfs.sh
HDFS_DATANODE_USERroot
HDFS_DATANODE_SECURE_USERhdfs
HDFS_NAMENODE_USERroot
HDFS_SECONDARYNAMENODE_USERroot修改sbin目录下的start-yarn.shstop-yarn.sh这两个脚本文件在文件前面增加如下内容
[rootbigdata01 sbin]# vi start-yarn.sh
YARN_RESOURCEMANAGER_USERroot
HADOOP_SECURE_DN_USERyarn
YARN_NODEMANAGER_USERroot[rootbigdata01 sbin]# vi stop-yarn.sh
YARN_RESOURCEMANAGER_USERroot
HADOOP_SECURE_DN_USERyarn
YARN_NODEMANAGER_USERroot3.4. 再启动集群
[rootbigdata01 sbin]# cd /data/soft/hadoop-3.2.0
[rootbigdata01 hadoop-3.2.0]# sbin/start-all.sh
Starting namenodes on [bigdata01]
Last login: Tue Apr 7 16:45:28 CST 2020 from fe80::c8a8:4edb:db7b:af53%ens33 on pts/1
Starting datanodes
Last login: Tue Apr 7 17:59:21 CST 2020 on pts/0
Starting secondary namenodes [bigdata01]
Last login: Tue Apr 7 17:59:23 CST 2020 on pts/0
Starting resourcemanager
Last login: Tue Apr 7 17:59:30 CST 2020 on pts/0
Starting nodemanagers
Last login: Tue Apr 7 17:59:37 CST 2020 on pts/03.5. 验证集群进程信息
执行jps命令可以查看集群的进程信息去掉Jps这个进程之外还需要有5个进程才说明集群是正常启动的
[rootbigdata01 hadoop-3.2.0]# jps
18913 NodeManager
18276 DataNode
19287 Jps
18139 NameNode
18780 ResourceManager
18509 SecondaryNameNode
[rootbigdata01 hadoop-3.2.0]#3.6. web页面
还可以通过webui界面来验证集群服务是否正常
HDFS webui界面http://192.168.92.100:9870
YARN webui界面http://192.168.92.100:8088
3.7. 域名访问
如果想通过主机名访问则需要修改windows机器中的hosts文件
文件所在位置为C:\Windows\System32\drivers\etc\HOSTS
在文件中增加下面内容这个其实就是Linux虚拟机的ip和主机名在这里做一个映射之后就可以在Windows机器中通过主机名访问这个Linux虚拟机了。
192.168.92.100 bigdata01注意如果遇到这个文件无法修改一般是由于权限问题在打开的时候可以选择使用管理员模式打开。 3.8. 停止集群
如果修改了集群的配置文件或者是其它原因要停止集群可以使用下面命令
[rootbigdata01 hadoop-3.2.0]# sbin/stop-all.sh
Stopping namenodes on [bigdata01]
Last login: Sat Jul 3 06:29:09 CST 2021 on pts/3
Stopping datanodes
Last login: Sat Jul 3 06:40:41 CST 2021 on pts/3
Stopping secondary namenodes [bigdata01]
Last login: Sat Jul 3 06:40:42 CST 2021 on pts/3
Stopping nodemanagers
Last login: Sat Jul 3 06:40:45 CST 2021 on pts/3
Stopping resourcemanager
Last login: Sat Jul 3 06:40:49 CST 2021 on pts/3
[rootbigdata01 hadoop-3.2.0]#