当前位置: 首页 > news >正文

网站建设与用户体验厅门户网站建设

网站建设与用户体验,厅门户网站建设,专业定制网站制作公司,自己建设网站步骤一#xff0c;Transformation变换/转换算子#xff1a; 这种变换并不触发提交作业#xff0c;这种算子是延迟执行的#xff0c;也就是说从一个RDD转换生成另一个RDD的转换操作不是马上执行#xff0c;需要等到有Action操作的时候才会真正触发。 1.Value数据类型的Transf…一Transformation变换/转换算子 这种变换并不触发提交作业这种算子是延迟执行的也就是说从一个RDD转换生成另一个RDD的转换操作不是马上执行需要等到有Action操作的时候才会真正触发。 1.Value数据类型的Transformation算子 这种变换并不触发提交作业针对处理的数据项是Value型的数据 1输入分区与输出分区一对一型 1.map算子 处理数据是一对一的关系进入一条数据出去的还是一条数据。map的输入变换函数应用于RDD中所有的元素而mapPartitions应用于所有分区。区别于mapPartitions主要在于调度粒度不同。如parallelize1 to 10 3map函数执行了10次而mapPartitions函数执行了3次。 2.flatMap算子 flatMap是一对多的关系处理一条数据得到多条结果。将原来 RDD 中的每个元素通过函数 f 转换为新的元素并将生成的 RDD 的每个集合中的元素合并为一个集合。 3.mapPartitions算子 mapPartitions遍历的是每一个分区中的数据一个个分区的遍历。获 取 到 每 个 分 区 的 迭 代器在 函 数 中 通 过 这 个 分 区 整 体 的 迭 代 器 对整 个 分 区 的 元 素 进 行 操 作相对于map一条条处理数据性能比较高可获取返回值。 可以通过函数f(iter) iter.filter(_3)对分区中所有的数据进行过滤大于和等于3的数据保留一个方块代表一个RDD分区含有1,2,3的分区过滤只剩下元素3。 4.mapPartitionsWithIndex算子 拿到每个RDD中的分区以及分区中的数据 2输入分区与输出分区多对一型 5.union算子 合并两个RDD两个RDD必须是同种类型不一定是KV格式的RDD 6.cartesian算子 求笛卡尔积该操作不会执行shuffle操作但最好别用容易触发OOM 3输入分区与输出分区多对多型 7.groupBy算子 按照指定的规则将数据分组 groupByKey算子 有shuffle产生 根据key去将相同的key对应的value合并在一起K,V(K,[V]) 4输出分区是输入分区子集类型 8.filter算子 过滤数据返回true的数据会被留下 9.distinct算子 distinct去重有shuffle产生内部实际是mapreduceByKeymap实现 10.subtract算子 取RDD的差集subtract两个RDD的类型要一致结果RDD的分区数与subtract算子前面的RDD分区数多的一致。 11.sample算子 sample随机抽样参数samplewithReplacement:有无放回抽样fraction:抽样的比例seed:用于指定的随机数生成器的种子 有种子和无种子的区别 有种子是只要针对数据源一样都是指定相同的参数那么每次抽样到的数据都是一样的 没有种子是针对同一个数据源每次抽样都是随机抽样 5Cache算子 13.cache算子 将结果缓存到内存中 14.persist算子 释放内存 cache()和persist()注意问题 1.cache()和persist()持久化单位是partitioncache()和persist()是懒执行算子需要action算子触发执行2.对一个RDD使用cache或者persist之后可以赋值给一个变量下次直接使用这个变量就是使用持久化的数据。 * 也可以直接对RDD进行cache或者persist不赋值给一个变量 *3.如果采用第二种方法赋值给变量的话后面不能紧跟action算子 * 4.cache()和persist()的数据在当前application执行完成之后会自动清除 2.Key-Value 数据类型的Transformation算子 这种变换并不触发提交作业针对处理的数据项是Key-Value型的数据对 1输入分区与输出分区一对一 15.mapValues算子 针对KV格式的数据只对Value做操作Key保持不变 flatMapValues K,V-(K,V)作用在K,V格式的RDD上对一个Key的一个Value返回多个Value 2对单个RDD或者两个RDD聚集 单个RDD聚集 16.combineByKey算子 首先给RDD中每个分区中的每一个key一个初始值 其次在RDD每个分区内部相同的key聚合一次 再次在RDD不同的分区之间将相同的key结果聚合一次 17.reduceByKey算子 首先会根据key去分组然后在每一组中将value聚合作用在KV格式的RDD上 18.repartition算子 重新分区可以将RDD的分区增多或者减少会产生shufflecoalesc(num,true) repartition(num) 两个RDD聚集 19.cogroup算子 合并两个RDD,生成一个新的RDD。分区数与分区数多个那个RDD保持一致 3连接 20.join算子 会产生shuffle,(K,V)格式的RDD和(K,V)格式的RDD按照相同的Kjoin得到(K,(V,W))格式的数据分区数按照大的来。 21.leftOutJoin和rightOutJoin算子、fullOuterJoin算子 leftOuterJoin(K,V)格式的RDD和(K,V)格式的RDD使用leftOuterJoin结合以左边的RDD出现的key为主 得到(K,(V,Option(W))) rightOuterJoin(K,V)格式的RDD和K,W格式的RDD使用rightOuterJoin结合以右边的RDD出现的key为主得到(K,(Option(V),W)) fullOuterJoin算子(K,V)格式的RDD和(K,V)格式的RDD使用fullOuterJoin结合是以两边的RDD出现的key为主得到(K(Option(V),Option(W))) intersection算子 取两个RDD的交集两个RDD的类型要一致结果RDD的分区数要与两个父RDD多的那个一致 二.Action行动算子 这类算子会触发SparkContext提交job作业并将数据输出到Spark系统。 1无输出 22.foreach算子 遍历RDD中的每一个元素 2HDFS 23.saveAsTextFile算子 将DataSet中的元素以文本的形式写入本地文件系统或者HDFS中Spark将会对每个元素调用toString方法将数据元素转换成文本文件中的一行数据若将文件保存在本地文件系统那么只会保存在executor所在机器的本地目录 24.saveAsObjectFile算子 将数据集中元素以ObjectFile形式写入本地文件系统或者HDFS中 3Scala集合和数据类型 25.collect算子 collect回收算子会将结果回收到Driver端如果结果比较大,就不要回收这样的话会造成Driver端的OOM 26.collectAsMap算子 将K、V格式的RDD回收到Driver端作为Map使用 27.countcountByKeyCountByValue算子 count统计RDD共有多少行数据 countByKey统计相同的key出现的个数 countByValue统计RDD中相同的Value出现的次数不要求数据必须为RDD格式 28.take take取出RDD中的前N个元素 takeSapmle(withReplacement,num,seed) 随机抽样将数据结果拿回Driver端使用返回Array withReplacement:有无放回抽样num:抽样的条数seed:种子 29.reduce算子 30.aggregateByKey算子 首先是给定RDD的每一个分区一个初始值然后RDD中每一个分区中按照相同的key结合初始值去合并最后RDD之间相同的key聚合 31.zipWithIndex算子 将两个RDD合成一个KV格式的RDD分区数要相同每个分区中的元素必须相同
http://www.huolong8.cn/news/249383/

相关文章:

  • 网站策划书市场分析2000字智能制造工程
  • 做摄影的网站知乎源码资源
  • 赣州大余做网站建设wordperss网站做负载均衡
  • 深圳市seo网站设计哪家好搜索引擎排名
  • 自己能做网站吗权威发布海报
  • 苏州网站建设建站网网页模板的制作步骤
  • 有哪些做的比较好的网站渭南市住房和城乡建设局官方网站
  • 常州手机网站建设百度网站优化软件
  • 标准网站建设报价单国家标准物质网站建设
  • 软文发布平台与板块百度上如何做优化网站
  • 宠物电商网站模板京东商城官网入口
  • 米拓模板网站建设做地方的门户网站
  • 夫妻做网站wordpress数据转移
  • 做兽设的网站短视频营销成功的案例
  • 临沂品牌网站制作电子商务网站建设的基本要素
  • 西青房地产网站建设wdcp搭建网站教程
  • 网站内容采编怎么做小型电商网站开发
  • 网站别人帮做的要注意什么东西网站代运营公司排名
  • 做网站 一年需要多少钱百度做网站优化多少钱一年
  • 菏泽网站建设网站好网站建设公司地址
  • 外贸手表网站模板网站权重最高是多少
  • 建设网站的企业排行国内新闻摘抄2022年
  • 2 网站内部链接优化国外大神的平面设计网站有哪些
  • 企业网站如何宣传基于百度地图的网站开发
  • 云南网站建设百度重庆网站营销公司
  • 不同企业的网络营销网站建筑培训网成绩查询
  • 制作网站微信登陆入口软件公司网站模板图片
  • 社交模板网站建设湖北专业网站建设质量保障
  • 找个做微商授权网站做商贸网站
  • 制作营销网站公司DW做网站下拉列表怎么做