网站建设费用计入管理费用,浙江平湖建设局网站,网站建设的实验步骤,h5怎么制作的一、Spark概述 Spark 是一个用来实现快速而通用的集群计算的平台。 在速度方面#xff0c;Spark 扩展了广泛使用的 MapReduce 计算模型#xff0c;而且高效地支持更多计算模式#xff0c;包括交互式查询和流处理。 在处理大规模数据集时#xff0c;速度是非常重要的。速…一、Spark概述 Spark 是一个用来实现快速而通用的集群计算的平台。 在速度方面Spark 扩展了广泛使用的 MapReduce 计算模型而且高效地支持更多计算模式包括交互式查询和流处理。 在处理大规模数据集时速度是非常重要的。速度快就意味着我们可以进行交互式的数据操作否则我们每次操作就需要等待数分钟甚至数小时。 Spark 的一个主要特点就是能够在内存中进行计算因而更快。不过即使是必须在磁盘上进行的复杂计算Spark 依然比 MapReduce 更加高效。 Spark 5个核心库 1.内核 spark 的核心基础设施提供了表示和存储数据的原始数据类型称为 RDD(Resilient Distributed Dataset, 弹性分布式数据集 2.SQL 3. MLlib(Machine Learning Library, 机器学习库 4. GraphX: 供图和图相关的计算使用 5.流Streaming) 二、安装步骤 1. 安装JDK环境 下载JDK安装包配置JDK环境 2.安装SCALA 1).下载scala我这里下载的是scala-2.12.2.tgz并上传到linux服务器 2).新建scala目录/usr/local/scala 3).将scala-2.12.2.tgz复制到/usr/local/scala并解压缩 4).在/etc/profile文件中添加 SCALA_HOME/usr/local/scala/scala-2.12.2 PATH$PATH:${SCALA_HOME}/bin 5).输入source /etc/profile 使profile文件生效 6).输入scala查看scala是否生效 3.安装Spark 1).下载Spark我这里下载的是spark-2.3.1-bin-hadoop2.7.tgz 2).新建spark目录/usr/local/spark 3).将spark-2.3.1-bin-hadoop2.7.tgz复制到/usr/local/spark并解压缩 4).在/etc/profile文件中添加 SPARK_HOME/usr/local/spark/spark-2.3.1-bin-hadoop2.7 PATH$PATH:${SPARK_HOME}/bin 5).输入source /etc/profile 使profile文件生效 6).修改spark配置 进入spark-2.3.1-bin-hadoop2.4/conf 复制模板文件 cp spark-env.sh.template spark-env.sh cp slaves.template slaves 7).编辑spark-env.sh添加 export JAVA_HOME/usr/local/java/jdk1.8.0_131 export SCALA_HOMESCALA_HOME/usr/local/scala/scala-2.12.2 export SPARK_MASTER_IP172.20.0.204 export SPARK_WORKER_MEMORY1g export HADOOP_CONF_DIR/usr/local/spark/spark-2.3.1-bin-hadoop2.7 8).输入source spark-env.sh使spark-env.sh文件生效 9).试一下spark是否安装成功 统计一下README.md文件中的单词个数 Reference: [1]:https://margaret0071.iteye.com/blog/2384805转载于:https://www.cnblogs.com/hoojjack/p/10160663.html