全国住房建设部网站,青岛建站费用,网站云空间,做毕业设计的网站hadoop完全分布式搭建
1 完全分布式介绍
Hadoop运行模式包括#xff1a;本地模式#xff08;计算的数据存在Linux本地#xff0c;在一台服务器上 自己测试#xff09;、伪分布式模式#xff08;和集群接轨 HDFS yarn#xff0c;在一台服务器上执行#xff09;、完全分…hadoop完全分布式搭建
1 完全分布式介绍
Hadoop运行模式包括本地模式计算的数据存在Linux本地在一台服务器上 自己测试、伪分布式模式和集群接轨 HDFS yarn在一台服务器上执行、完全分布式模式。
本地模式hadoop默认安装后启动就是本地模式就是将来的数据存在Linux本地并且运行MR程序的时候也是在本地机器上运行
伪分布式模式伪分布式其实就只在一台机器上启动HDFS集群启动YARN集群并且数据存在HDFS集群上以及运行MR程序也是在YARN上运行计算后的结果也是输出到HDFS上。本质上就是利用一台服务器中多个java进程去模拟多个服务
完全分布式完全分布式其实就是多台机器上分别启动HDFS集群启动YARN集群并且数据存在HDFS集群上的以及运行MR程序也是在YARN上运行计算后的结果也是输出到HDFS上。
在真实的企业环境中服务器集群会使用到多台机器共同配合来构建一个完整的分布式文件系统。而在这样的分布式文件系统HDFS相关的守护进程也会分布在不同的机器上例如
NameNode守护进程尽可能的单独部署在一台硬件性能较好的机器中。其他的每台机器上都会部署一个Datanode守护进程一般的硬件环境即可。SecondaryNameNode守护进程最好不要和NameNode在同一台机器上
2 部署环境
2.1 搭建环境软件
软件 平台备注宿主系统windows10虚拟机软件、系统vmware17centos7.5虚拟机主机名node1 ip192.168.149.111主机名node2 ip192.168.149.112主机名node3 ip192.168.149.113hadoop版本hadoop-3.3.0-Centos7-64-with-snappy.tar.gzSSH远程连接工具xshell7软件安装包上传路径/export/software软件安装路径/export/software/jdk 、 /export/software/hadoopjdk环境jdk-8u241-linux-x64
2.2 守护进程布局
NameNodeDataNodeSecondaryNameNodehadoop1√√hadoop2√hadoop3√√
3 准备工作
三台机器的防火墙必须是关闭的.确保三台机器的网络配置畅通(NAT模式静态IP主机名的配置)确保/etc/hosts文件配置了ip和hostname的映射关系确保配置了三台机器的免密登陆认证克隆会更加方便确保所有机器时间同步jdk和hadoop的环境变量配置
3.0 安装ifconfig 和vim
如果没有ifconfig
yum search ifconfig
yum install net-tools.x86_64yum -y install vim3.1 关闭防火墙
# 三台虚拟机均操作
systemctl status firewalld # 查看防火墙状态
systemctl stop firewalld # 关闭防火墙
systemctl disable firewalld # 禁止使用防火墙3.2 配置静态ip
# 三台虚拟机均操作
vim/etc/sysconfig/network-scripts/ifcfg-ens32 IPADDR192.168.149.111
NETMASK255.255.255.0
GATEWAY192.168.149.2
DNS1114.114.114.1143.3 配置hostname的映射关系
# 三台虚拟机均操作
# 1. 修改主机名
vim /etc/hostname
node1# 或者
hostnamectl --static set-hostname node1# 2. 修改映射
vim /etc/hosts127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
::1 localhost localhost.localdomain localhost6 localhost6.localdomain6192.168.149.111 node1
192.168.149.112 node2
192.168.149.113 node33.4 免密登陆认证
# ssh免密登录只需要配置node1至node1、node2、node3即可# 1. node1生成公钥私钥 (一路回车)ssh-keygen # 2. node1配置免密登录到node1 node2 node3ssh-copy-id node1ssh-copy-id node2ssh-copy-id node3sh# 如果失败查看/root目录下的.sshls -la# 将已有的.ssh删除重复上述操作# 3. 进行验证 ssh node1ssh node2ssh node3# 同时配置其余两台机器3.5 时间同步
# 集群时间同步
yum -y install ntpdate
ntpdate ntp5.aliyun.com3.6 jdk环境变量配置
# 1. 将jdk安装包上传到/export/software/jdk
# 2. 解压jdk安装包
tar -xvf jdk-8u241-linux-x64.tar.gz # 3. 配置环境变量
vim /etc/profileexport JAVA_HOME/export/software/jdk/jdk1.8.0_241
export PATH$PATH:$JAVA_HOME/bin
export CLASSPATH.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar# 4. 重新加载环境变量文件
source /etc/profile# 5. 查看jdk环境
java -version3.7 hadoop安装与环境变量配置
# 1. 将hadoop安装包上传到/export/software/hadoop
# 2. 解压hadoop
tar -zxvf hadoop-3.3.0-Centos7-64-with-snappy.tar.gz
# 3 .配置环境变量
vim /etc/profileexport HADOOP_HOME/export/software/hadoop/hadoop-3.3.0
export PATH$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbinsource /etc/profile4 hadoop文件配置
配置文件位置 /$HADOOP_HOME/etc/hadoop
4.1 core-site.xml
!-- 设置namenode节点 --
!-- 设置默认使用的文件系统 Hadoop支持file、HDFS、GFS、ali|Amazon云等文件系统 --
!-- 注意: hadoop1.x时代默认端口9000 hadoop2.x时代默认端口8020 hadoop3.x时代默认端口 9820 --
propertynamefs.defaultFS/namevaluehdfs://node1:9820/value
/property!-- 设置Hadoop本地保存数据路径 hdfs基础路径被其他属性所依赖的路径
--
propertynamehadoop.tmp.dir/namevalue/export/software/hadoop/hadoop-3.3.0/tmp/value
/property!-- 设置HDFS web UI用户身份 --
propertynamehadoop.http.staticuser.user/namevalueroot/value
/property!-- 整合hive 用户代理设置 --
propertynamehadoop.proxyuser.root.hosts/namevalue*/value
/propertypropertynamehadoop.proxyuser.root.groups/namevalue*/value
/property!-- 文件系统垃圾桶保存时间 --
propertynamefs.trash.interval/namevalue1440/value
/property4.2 hdfs-site.xml
!-- 块的副本数量 --
property namedfs.replication/name value3/value
/property !-- 设置SNN进程运行机器位置信息
secondarynamenode守护进程的http地址主机名和端口号。参考守护进程布局 --
propertynamedfs.namenode.secondary.http-address/namevaluenode2:9868/value
/property!-- namenode守护进程的http地址主机名和端口号。参考守护进程布局 --
property namedfs.namenode.http-address/namevaluenode1:9870/value
/property4.3 hadoop-env.sh
#文件最后添加
export JAVA_HOME/export/software/jdk/jdk1.8.0_241# Hadoop3中需要添加如下配置设置启动集群角色的用户是谁
export HDFS_NAMENODE_USERroot
export HDFS_DATANODE_USERroot
export HDFS_SECONDARYNAMENODE_USERroot
export YARN_RESOURCEMANAGER_USERroot
export YARN_NODEMANAGER_USERroot 4.4 workers
node1
node2
node34.5 mapred-site.xml
!-- 设置MR程序默认运行模式 yarn集群模式 local本地模式 --
propertynamemapreduce.framework.name/namevalueyarn/value
/property!-- MR程序历史服务地址 --
propertynamemapreduce.jobhistory.address/namevaluenode1:10020/value
/property!-- MR程序历史服务器web端地址 --
propertynamemapreduce.jobhistory.webapp.address/namevaluenode1:19888/value
/propertypropertynameyarn.app.mapreduce.am.env/namevalueHADOOP_MAPRED_HOME${HADOOP_HOME}/value
/propertypropertynamemapreduce.map.env/namevalueHADOOP_MAPRED_HOME${HADOOP_HOME}/value
/propertypropertynamemapreduce.reduce.env/namevalueHADOOP_MAPRED_HOME${HADOOP_HOME}/value
/property4.6 yarn-site.xml
!-- 设置YARN集群主角色运行机器位置 --
propertynameyarn.resourcemanager.hostname/namevaluenode1/value
/propertypropertynameyarn.nodemanager.aux-services/namevaluemapreduce_shuffle/value
/property!-- 是否将对容器实施物理内存限制 --
propertynameyarn.nodemanager.pmem-check-enabled/namevaluefalse/value
/property!-- 是否将对容器实施虚拟内存限制。 --
propertynameyarn.nodemanager.vmem-check-enabled/namevaluefalse/value
/property!-- 开启日志聚集 --
propertynameyarn.log-aggregation-enable/namevaluetrue/value
/property!-- 设置yarn历史服务器地址 --
propertynameyarn.log.server.url/namevaluehttp://node1:19888/jobhistory/logs/value
/property!-- 历史日志保存的时间 7天 --
propertynameyarn.log-aggregation.retain-seconds/namevalue604800/value
/property5 启动hadoop
5.1 格式化namenode
首次启动格式化namenode
hdfs namenode -format5.2 启动服务
start-dfs.sh # 启动HDFS所有进程(NameNode、SecondaryNameNode、DataNode)
stop-dfs.sh # 停止HDFS所有进程(NameNode、SecondaryNameNode、DataNode)hadoop-daemon.sh start namenode # 只开启NameNode
hadoop-daemon.sh start secondarynamenode # 只开启SecondaryNameNode
hadoop-daemon.sh start datanode # 只开启DataNodehadoop-daemon.sh stop namenode # 只关闭NameNode
hadoop-daemon.sh stop secondarynamenode # 只关闭SecondaryNameNode
hadoop-daemon.sh stop datanode # 只关闭DataNodestart-all.sh # 启动所有服务
stop-all.sh # 关闭所有服务5.3 查看节点
jps# node1
6371 NameNode
7461 Jps
7094 NodeManager
6519 DataNode
6942 ResourceManager# node2
3617 DataNode
3938 Jps
3731 SecondaryNameNode
3815 NodeManager# node3
3594 Jps
3355 DataNode
3471 NodeManager5.4 开启页面
Web UI页面
HDFS集群http://192.168.149.111:9870/YARN集群http://192.168.149.111:8088/