当前位置: 首页 > news >正文

江门网站制作建设口碑好的企业网站建设

江门网站制作建设,口碑好的企业网站建设,延安免费做网站,aliyun wordpress目录 一、目的与要求 二、实验内容 三、实验步骤 1、安装Hadoop和Spark 2、HDFS常用操作 3、Spark读取文件系统的数据 四、结果分析与实验体会 一、目的与要求 1、掌握在Linux虚拟机中安装Hadoop和Spark的方法#xff1b; 2、熟悉HDFS的基本使用方法#xff1b; 3、掌…目录 一、目的与要求 二、实验内容 三、实验步骤 1、安装Hadoop和Spark 2、HDFS常用操作 3、Spark读取文件系统的数据 四、结果分析与实验体会 一、目的与要求 1、掌握在Linux虚拟机中安装Hadoop和Spark的方法 2、熟悉HDFS的基本使用方法 3、掌握使用Spark访问本地文件和HDFS文件的方法。 二、实验内容 1、安装Hadoop和Spark 进入Linux系统完成Hadoop伪分布式模式的安装。完成Hadoop的安装以后再安装SparkLocal模式。 2、HDFS常用操作 使用Hadoop提供的Shell命令完成如下操作 1启动Hadoop在HDFS中创建用户目录“/user/你的名字的拼音”。以张三同学为例创建 /user/zhangsan 下同 2在Linux系统的本地文件系统的“/home/zhangsan”目录下新建一个文本文件test.txt并在该文件中至少十行英文语句然后上传到HDFS的“/user/zhangsan”目录下 3把HDFS中“/user/zhangsan”目录下的test.txt文件下载到Linux系统的本地文件系统中的“/tmp”目录下 4将HDFS中“/user/zhangsan”目录下的test.txt文件的内容输出到终端中进行显示 5在HDFS中的“/”目录下创建子目录input把HDFS中“/user/zhangsan”目录下的test.txt文件复制到“/input”目录下 6删除HDFS中“/user/zhangsan”目录下的test.txt文件 7查找HDFS中所有的 .txt文件 8使用hadoop-mapreduce-examples-3.1.3.jar程序对/input目录下的文件进行单词个数统计写出运行命令并验证运行结果。 3、Spark读取文件系统的数据 1在pyspark中读取Linux系统本地文件“/home/zhangsan/test.txt”然后统计出文件的行数 2在pyspark中读取HDFS系统文件“/user/zhangsan/test.txt”然后统计出文件的行数 3编写独立应用程序读取HDFS系统文件“/user/zhangsan/test.txt”然后统计出文件的行数通过 spark-submit 提交到 Spark 中运行程序。 三、实验步骤 1、安装Hadoop和Spark 进入Linux系统完成Hadoop伪分布式模式的安装。完成Hadoop的安装以后再安装SparkLocal模式。具体安装步骤可以参照我前面写的博客 大数据存储技术1—— Hadoop简介及安装配置-CSDN博客https://blog.csdn.net/Morse_Chen/article/details/134833801Spark环境搭建和使用方法-CSDN博客https://blog.csdn.net/Morse_Chen/article/details/134979681 2、HDFS常用操作 1启动Hadoop在HDFS中创建用户目录“/user/你的名字的拼音”。以张三同学为例创建 /user/zhangsan 下同 [rootbigdata zhc]# start-dfs.sh [rootbigdata zhc]# jps [rootbigdata zhc]# hdfs dfs -mkdir -p /user/zhc [rootbigdata zhc]# hdfs dfs -ls /user 2在Linux系统的本地文件系统的“/home/zhangsan”目录下新建一个文本文件test.txt并在该文件中至少十行英文语句然后上传到HDFS的“/user/zhangsan”目录下 [rootbigdata zhc]# cd /home/zhc [rootbigdata zhc]# vi test.txt [rootbigdata zhc]# hdfs dfs -put /home/zhc/test.txt /user/zhc test.txt 文件内容如下  welcome to linux hello hadoop spark is fast hdfs is good start pyspark use python scala and R great success I love spark ten 这里可以看到上传成功了。  3把HDFS中“/user/zhangsan”目录下的test.txt文件下载到Linux系统的本地文件系统中的“/tmp”目录下 [rootbigdata zhc]# hdfs dfs -get /user/zhc/test.txt /tmp/ 4将HDFS中“/user/zhangsan”目录下的test.txt文件的内容输出到终端中进行显示 [rootbigdata zhc]# hdfs dfs -cat /user/zhc/test.txt 5在HDFS中的“/”目录下创建子目录input把HDFS中“/user/zhangsan”目录下的test.txt文件复制到“/input”目录下 [rootbigdata zhc]# hdfs dfs -cp /user/zhc/test.txt /input/ 6删除HDFS中“/user/zhangsan”目录下的test.txt文件 [rootbigdata zhc]# hdfs dfs -rm -f /user/zhc/test.txt 7查找HDFS中所有的 .txt文件 [rootbigdata zhc]# hdfs dfs -ls -R / | grep -i \.txt$ 8使用hadoop-mapreduce-examples-3.1.3.jar程序对/input目录下的test.txt文件进行单词个数统计写出运行命令并验证运行结果。 注意在做这一步之前要先启动yarn进程            指定输出结果的路径/output该路径不能已存在。 先切换到 /usr/local/servers/hadoop/share/hadoop/mapreduce 路径下然后再开始统计单词个数。 [rootbigdata zhc]# cd /usr/local/servers/hadoop/share/hadoop/mapreduce [rootbigdata mapreduce]# hadoop jar hadoop-mapreduce-examples-3.1.3.jar wordcount /input/test.txt /output 输入命令查看HDFS文件系统中/output目录下的结果。  [rootbigdata mapreduce]# hdfs dfs -ls /output [rootbigdata mapreduce]# hdfs dfs -cat /output/part-r-00000 3、Spark读取文件系统的数据 先在终端启动Spark。 [rootbigdata zhc]# pyspark 1在pyspark中读取Linux系统本地文件“/home/zhangsan/test.txt”然后统计出文件的行数 textFilesc.textFile(file:///home/zhc/test.txt)linecounttextFile.count()print(linecount) 2在pyspark中读取HDFS系统文件“/user/zhangsan/test.txt”如果该文件不存在请先创建然后统计出文件的行数 注意由于在第2题的6问中已经删除了HDFS中“/user/zhangsan”目录下的test.txt文件所以这里要重新将test.txt文件从本地系统上传到HDFS中。 [rootbigdata zhc]# hdfs dfs -put /home/zhc/test.txt /user/zhctextFilesc.textFile(hdfs://localhost:9000/user/zhc/test.txt)linecounttextFile.count()print(linecount)3编写独立应用程序读取HDFS系统文件“/user/zhangsan/test.txt”然后统计出文件的行数通过 spark-submit 提交到 Spark 中运行程序。 [rootbigdata mycode]# vi CountLines_hdfs.py [rootbigdata mycode]# spark-submit CountLines_hdfs.py CountLines_hdfs.py文件内容如下 from pyspark import SparkContext FilePath hdfs://localhost:9000/user/zhc/test.txt sc SparkContext(local,Simple App) data sc.textFile(FilePath).cache( ) print(文件行数:,data.count()) 四、结果分析与实验体会 通过本次Spark实验学会了如何安装、启动Hadoop和Spark并掌握了HDFS的基本使用方法使用Spark访问本地文件和HDFS文件的方法。在Linux系统的本地文件系统和在HDFS中分别进行各种文件操作然后在Spark中读取文件系统的数据并能统计文件的行数。         在做第三题2时在pyspark中读取HDFS系统文件“/user/zhangsan/test.txt”要将第二题6中删除的test.txt文件重新上传到HDFS中注意文件路径要写正确 file_path“hdfs:///user/zhc/test.txt”。在第三题3中可以修改如下路径中的文件 /usr/local/spark/conf/log4j.properties.template将文件中内容 “log4j.rootCategoryINFO” 改为 “log4j.rootCategoryERROR”这样在输出结果时就不会显示大量的INFO信息使得结果更简化。
http://www.huolong8.cn/news/202726/

相关文章:

  • 网站建设好就业吗万网怎么发布网站
  • 济南装饰行业网站建设如何给网站做seo
  • 男男做视频网站做音乐网站需要版权么
  • 群晖网站建设处理错误500网站 网页区别是什么
  • 企业网站开发报价表东莞网页设计培训班
  • 调用wordpress编辑器深圳网站优化公司哪家好
  • 可以浏览的外文网站全网搜索
  • 大气手机网站模板协同办公软件下载
  • 一个ip 做2个网站吗南京免费发布信息网站
  • 手机网站整站模板下载网站制作二维码
  • 制作网站一般是多大wordpress 静态设置
  • 林州网站建设哪家好科技网站设计欣赏
  • 如何在mysql数据库里修改网站后台管理的登录密码什么是做学院网站
  • 遂川网站建设南京seo网络推广
  • 沂源网站郴州市面积多少平方公里
  • 怎么创建网站与网页商业信息网站大全
  • 专门找图片素材的网站百度云资源搜索网站
  • 汕头制作网站软件家纺 网站建设 中企动力
  • 长春网站建设加王道下拉移动互联网营销
  • 山东潍坊网站制作公司网站制公司
  • 漳州市住房城乡建设局网站wordpress二维码动态图片大小
  • 发卡网站搭建域名最新通知
  • 淄博网站建设哪家专业多个网站备案
  • 怎么制作小视频伊春seo
  • 学校门户网站建设的好处企业做网站维护
  • 福州有什么做网站的公司网站建设怎么设置多语言
  • 网站推广的渠道有哪些长春网站优化
  • 华星建设集团网站wordpress php 5.3.x
  • 商城网站策划方案国内国际新闻
  • 自动做标题网站农场游戏系统开发网站建设推广