微信微网站怎么做,seo点击排名器,wordpress 页面静态化,苏州建设交通高等职业技术学校看的黑马视频记的笔记 目录
1.入门知识点
分布式计算#xff1a;
概念#xff1a;
两种模式#xff1a;
MapReduce#xff08;分布式计算#xff0c;分散汇总模式#xff09; 概念
执行原理
注#xff1a;
Yarn#xff08;分布式资源调度#xff09;
概述 Y…看的黑马视频记的笔记 目录
1.入门知识点
分布式计算
概念
两种模式
MapReduce分布式计算分散汇总模式 概念
执行原理
注
Yarn分布式资源调度
概述 Yarn架构核心架构辅助架构
核心架构与HDFS非常相似、主从架构
辅助架构
2.部署
mapred-env.sh
mapred-site.xml
yarn-env.sh
yarn-site.xml
分发到另外两个节点
启动YARN
启动WEB UI页面 3.提交自带MapReduce示例程序到Yarn运行
wordcount
求圆周率 1.入门知识点
分布式计算
概念 多个计算机合作共同完成一个计算手段
两种模式 1.分散--汇总聚合MapReduce就为该种模式 2.中心调度--步骤执行Spark、Flink 指挥小弟执行第几阶段、计算完交换数据 MapReduce分布式计算分散汇总模式 概念 MapReduce是“分散-汇总”模式的分布式计算框架可供开发人员开发相关程序进行分布式数据计算。 MapReduce提供了Map和Reduce2个编程接口 Map分散功能接口提供分散功能有服务器分布式对数据进行处理 Reduce汇总提供聚合功能将分布式的处理结果汇总统计 执行原理 假设有四台计算机文件分成三份三台各自处理数据统计一台汇总
注 MapReduce尽管可以通过Java、Python等语言进行程序开发但当下年代基本没人会写它的代码了因为太过时了。 尽管MapReduce很老了但现在仍旧活跃在一线主要是Apache Hive框架非常火而Hive底层就是使用的MapReduce。 Yarn分布式资源调度
概述 管控整个分布式服务器集群的全部资源整合进行统一调度可以提高资源利用率 MapRudece是基于Yarn运行的YARN用来调度资源给MapReduce分配和管理运行资源 所以MapReduce需要YARN才能执行普遍情况 Yarn架构核心架构辅助架构
核心架构与HDFS非常相似、主从架构 与HDFS非常相似 ResourceManager:整个集群的资源调度者集群资源的管家负责协调调度各个程序所需的资源。 NodeManager:单个服务器的资源调度者单个设备的管家负责调度单个服务器上的资源提供给应用程序使用。 容器类似于一个集装箱程序运行在容器内无法突破容器的资源限制
辅助架构 代理服务器(ProxyServer)给Yarn提供一定的安全保障 JobHistoryServer历史服务器统一收集到HDFS由历史服务器托管为WEB UI供用户在浏览器统一查看
管控整个分布式服务器集群的全部资源整合进行统一调度
2.部署 在node1以hadoop用户做出以下改进
mapred-env.sh
export JAVA_HOME/export/server/jdk
export HADOOP_JOB_HISTORYSERVER_HEAPSIZE1000
export HADOOP_MAPRED_ROOT_LOGGERINFO,RFA
mapred-site.xml
configurationpropertynamemapreduce.framework.name/namevalueyarn/valuedescription/description/propertypropertynamemapreduce.jobhistory.address/namevaluenode1:10020/valuedescription/description/propertypropertynamemapreduce.jobhistory.webapp.address/namevaluenode1:19888/valuedescription/description/propertypropertynamemapreduce.jobhistory.intermediate-done-dir/namevalue/data/mr-history/tmp/valuedescription/description/propertypropertynamemapreduce.jobhistory.done-dir/namevalue/data/mr-history/done/valuedescription/description/property
propertynameyarn.app.mapreduce.am.env/namevalueHADOOP_MAPRED_HOME$HADOOP_HOME/value
/property
propertynamemapreduce.map.env/namevalueHADOOP_MAPRED_HOME$HADOOP_HOME/value
/property
propertynamemapreduce.reduce.env/namevalueHADOOP_MAPRED_HOME$HADOOP_HOME/value
/property
/configuration
yarn-env.sh
export JAVA_HOME/export/server/jdk
export HADOOP_HOME/export/server/hadoop
export HADOOP_CONF_DIR$HADOOP_HOME/etc/hadoop
# export YARN_CONF_DIR$HADOOP_HOME/etc/hadoop
# export YARN_LOG_DIR$HADOOP_HOME/logs/yarn
export HADOOP_LOG_DIR$HADOOP_HOME/logs
yarn-site.xml
configuration!-- Site specific YARN configuration properties --
propertynameyarn.log.server.url/namevaluehttp://node1:19888/jobhistory/logs/valuedescription/description
/propertypropertynameyarn.web-proxy.address/namevaluenode1:8089/valuedescriptionproxy server hostname and port/description/propertypropertynameyarn.log-aggregation-enable/namevaluetrue/valuedescriptionConfiguration to enable or disable log aggregation/description/propertypropertynameyarn.nodemanager.remote-app-log-dir/namevalue/tmp/logs/valuedescriptionConfiguration to enable or disable log aggregation/description/property!-- Site specific YARN configuration properties --propertynameyarn.resourcemanager.hostname/namevaluenode1/valuedescription/description/propertypropertynameyarn.resourcemanager.scheduler.class/namevalueorg.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler/valuedescription/description/propertypropertynameyarn.nodemanager.local-dirs/namevalue/data/nm-local/valuedescriptionComma-separated list of paths on the local filesystem where intermediate data is written./description/propertypropertynameyarn.nodemanager.log-dirs/namevalue/data/nm-log/valuedescriptionComma-separated list of paths on the local filesystem where logs are written./description/propertypropertynameyarn.nodemanager.log.retain-seconds/namevalue10800/valuedescriptionDefault time (in seconds) to retain log files on the NodeManager Only applicable if log-aggregation is disabled./description/propertypropertynameyarn.nodemanager.aux-services/namevaluemapreduce_shuffle/valuedescriptionShuffle service that needs to be set for Map Reduce applications./description/property
/configuration
分发到另外两个节点 node1配置完为了省事直接分发给node2、node3
scp * node2:pwd/
scp * node3:pwd/
启动YARN
#一键启动YARN集群可控制resourcemanager、nodemanager、proxyserver三种进程$HADOOP_HOME/sbin/start-yarn.sh#启动历史服务器
$HADOOP_HOME/bin/mapred --daemon start historyserver jps启动WEB UI页面 在浏览器输入http://node1:8088 3.提交自带MapReduce示例程序到Yarn运行 YARN作为资源调度管控框架其本身提供资源供许多程序运行常见的有 MapReduce程序 Spark程序 Flink程序
wordcount 这些内置的示例MapReduce程序代码都在$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.0.jar文件内。 可以通过 hadoop jar 命令来运行它提交MapReduce程序到YARN中。
#在/export操作
vim words.txt#填入
itheima itcast itheima itcast
hadoop hdfs hadoop hdfs
hadoop mapreduce hadoop yarn
itheima hadoop itcast hadoop
itheima itcast hadoop yarn mapreducehadoop fs -mkdir -p /input/wordcount
hadoop fs -mkdir /output
hadoop fs -put words.txt /input/wordcount/#提交示例MapReduce程序WordCount到YARN中执行hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.0.jar wordcount hdfs://node1:8020/input/wordcount/ hdfs://node1:8020/output/wc1#参数
参数wordcount表示运行jar包中的单词计数程序Java Class
参数1是数据输入路径hdfs://node1:8020/input/wordcount/)
参数2是结果输出路径(hdfs://node1:8020/output/wc1) 需要确保输出的文件夹不存在提交程序后可以在YARN的WEB UI页面看到运行中的程序http://node1:8088/cluster/apps) 查看结果 wc1中的 _SUCCESS 文件是标记文件表示运行成功本身是空文件 part-r-00000 是结果文件结果存储在以 part 开头的文件中 查看到详细的运行日志信息 求圆周率
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.0.jar pi 3 1000#参数pi表示要运行的Java类这里表示运行jar包中的求pi程序
#参数3表示设置几个map任务
#参数1000表示模拟求PI的样本数越大求的PI越准确但是速度越慢