内部网站建设公司,张店制作网站,php网站开发技术 pdf,品牌推广运营策划方案什么是Hadoop伪分布式集群#xff1f; Hadoop 伪分布式集群是一种在单个节点上模拟分布式环境的配置#xff0c;用于学习、开发和测试 Hadoop 的功能和特性。它提供了一个简化的方式来体验和熟悉 Hadoop 的各个组件#xff0c;而无需配置和管理一个真正的多节点集群。 在 Ha…什么是Hadoop伪分布式集群 Hadoop 伪分布式集群是一种在单个节点上模拟分布式环境的配置用于学习、开发和测试 Hadoop 的功能和特性。它提供了一个简化的方式来体验和熟悉 Hadoop 的各个组件而无需配置和管理一个真正的多节点集群。 在 Hadoop 伪分布式集群中各个 Hadoop 组件如 NameNode、DataNode、ResourceManager、NodeManager 等在同一台机器上运行并通过配置文件进行连接和通信。通过使用 Hadoop 伪分布式集群你可以在单个节点上进行开发和测试而无需配置和管理一个真正的多节点集群。这对于学习和熟悉 Hadoop 的基本概念、调试代码、运行作业和验证配置非常有用。 然而需要注意的是伪分布式集群并不能提供真正的分布式计算和数据处理能力因为所有的组件都在同一台机器上运行。因此在进行性能测试、负载均衡和规模扩展方面它与真实的分布式集群可能存在一些差异。 也就是说Hadoop可以在单节点上以伪分布的方式运行Hadoop进程以分离的Java进程来运行节点既是NameNode又是DataNode并且读取的是HDFS中的文件。
一、基本环境配置 基本环境配置的 所有步骤与博主上一篇博客一致 传送门Hadoop 分布式集群搭建教程2023在校生踩坑版-CSDN博客 1.修改主机名和设置固定IP
2.关闭防火墙和新建安装目录
3.安装配置JDK
4.配置主机映射修改hosts文件
5.配置SSH免密登录本地节点hadoop0
二、安装配置Hadoop
1.安装和解压 步骤与博主上一篇博客一致 传送门Hadoop 分布式集群搭建教程2023在校生踩坑版-CSDN博客 接着进入“/opt/programs/hadoop-3.3.6/etc/hadoop”目录依次修改配置文件 core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、slaves(又一个坑Hadoop3.x版本之后slaves文件更名为workers所以很多同学会找不到这个文件)、hadoop-env.sh。
①修改配置文件core-site.xml # vim core-site.xml 将 configuration 和 /configuration 标签的内容修改如下
configurationpropertynamefs.defaultFS/namevaluehdfs://hadoop0:9000/value/propertypropertynamehadoop.tmp.dir/namevalue/opt/programs/hadoop-3.3.6/tmp/value/property
/configuration
②修改配置文件hdfs-site.xml # vim hdfs-site.xml 将 configuration 和 /configuration 标签的内容修改如下
configurationpropertynamedfs.replication/namevalue1/value/property
/configuration
③修改配置文件mapred-site.xml # vim mapred-site.xml 将 configuration 和 /configuration 标签的内容修改如下
configurationpropertynamemapreduce.framework.name/namevalueyarn/value/propertypropertynamedfs.permissions/namevaluefalse/value/property
/configuration
④修改配置文件yarn-site.xml # vim yarn-site.xml 将 configuration 和 /configuration 标签的内容修改如下
configurationpropertynameyarn.resourcemanager.hostname/namevaluehadoop0/value/propertypropertynameyarn.nodemanager.aux-services/namevaluemapreduce_shuffle/value/property
/configuration
⑤修改配置文件slavesHadoop3.x改名为workers
将“localhost”修改为以下内容 hadoop0 ⑥修改配置文件hadoop-env.sh
将’expHADOOP_CONF_DIR${HADOOP_CONF_DIR:-/etc/hadoop}”一行改为 export HADOOP_CONF_DIR/opt/programs/hadoop-3.3.6/etc/hadoop 并在文件末尾加入JAVA_HOME环境变量 export JAVA_HOME/opt/programs/jdk1.8.0_371 然后执行以下命令刷新hadoop-env.sh文件使修改生效 # source hadoop-env.sh 2.配置Hadoop环境变量
接修改“ /etc/profile ”配置Hadoop环境变量 # vim /etc/profile 在文件末尾加入以下内容 export HADOOP_HOME/opt/programs/hadoop-3.3.6 export PATH$PATH:$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin 然后刷新profile文件是修改生效 # source /etc/profile 三、格式化HDFS
执行以下命令格式化HDFS # hdfs namenode -format 出现以下信息则说明格式化成功 四、启动HDFS和YARN
依次执行以下命令启动HDFS和YARN # start-dfs.sh # start-yarn.sh 若出现以下报错 则需要在“ /etc/profile/ 文件中加入以下内容
export HDFS_NAMENODE_USERroot
export HDFS_DATANODE_USERroot
export HDFS_SECONDARYNAMENODE_USERroot
export YARN_RESOURCEMANAGER_USERroot
export YARN_NODEMANAGER_USERroot
export HDFS_JOURNALNODE_USERroot
export HDFS_ZKFC_USERroot
更改完成后一定要刷新profile文件
然后重启HDFS和YARN 即可发现正常启动。 启动后可执行“ jps ”命令查看启动的Hadoop相关进程 除去jps外共有五个进程NameNode、SecondaryNameNode、DataNode、ResourceManager和NodeManager。如果发现有进程没有启动可以先停止Hadoop集群依次执行” stop-dfs.sh ”、“stop-yarn.sh”)然后重新格式化HDFS。 启动后在宿主机访问“ http://hadoop0的ip地址:9870/ ”页面会显示“hadoo0:9000(active)”
有小伙伴可能访问50070访问不了那么不妨改为9870试试 对于Hadoop高可用集群和伪分布式集群它们在配置上有一些差异这可能导致了不同的端口配置。 在Hadoop高可用集群中通常会使用Hadoop的HAHigh Availability功能来确保集群的可用性。HA集群中有多个NameNode实例其中一个是Active状态的主NameNode负责处理客户端请求。默认情况下Active主NameNode的HTTP端口是50070用于访问Web界面。 而在Hadoop伪分布式集群中只有一个节点模拟了整个分布式环境包括NameNode、DataNode、ResourceManager等。为了避免与默认的单节点模式端口冲突Hadoop在伪分布式模式下将NameNode的HTTP端口更改为9870。 因此当你搭建正常的Hadoop高可用集群时可以通过50070端口访问NameNode的Web界面。而在伪分布式集群中由于端口冲突的考虑NameNode的HTTP端口被更改为9870。 这是Hadoop在不同配置下为了避免端口冲突而进行的默认设置。我们也可以通过相应的配置文件修改端口号来满足需求。