网站建设 创意视频,用wordpress建仿站,python为什么叫爬虫,推广营销计划1、基础知识
#xff08;1#xff09;、数据流上的有状态计算
#xff08;2#xff09;、框架和分布式处理引擎#xff0c;用于对无界和有界数据流进行有状态计算。
#xff08;3#xff09;、事件驱动型应用#xff0c;有数据流就进行处理#xff0c;无数据流就不…1、基础知识
1、数据流上的有状态计算
2、框架和分布式处理引擎用于对无界和有界数据流进行有状态计算。
3、事件驱动型应用有数据流就进行处理无数据流就不进行处理就像挤牙膏一样。
4、无界数据流有界数据流 其中无界数据流就相当于水龙头流的开始就是打开水龙头但原则上只要不关闭水龙头水就会一直流下去所以没有定义流的结束。 有界数据流相当于给一个水桶中装满水水桶底部存在一个小孔流的开始就是水桶滴下第一滴水流的结束就是滴下最后一滴水。 2、有状态流处理 举例在一条马路上每过一辆车就会记录一次在经过一段时间后对记录的结果进行统计处理。 3、Flink特点 4、Spark和Flink的区别
两者最为本质的区别就是Spark是批处理模式Flink是流处理模式
Spark Streaming
1比如设计批次为3s那么Spark将会积攒3s内的数据最后统一对其进行处理。
2计算模型微批次处理
3时间语义处理时间
4窗口少不灵活
5状态没有需要跟外部系统进行交互。
6流式SQL没有
Flink
1与Spark不同的是Flink是流处理模式来一条数据就处理一条数据。
2计算模型流计算
3时间语义事件时间、处理时间
处理时间在处理数据时的现实时间
事件事件数据本身产生的时间
举例
例如在23:59:59产生了一条数据但因为网络延迟问题导致计算引擎读取出现延迟读取时间为0:00:01综上所述事件时间就是23:59:59处理时间就是0:00:01
4窗口多、灵活
5状态有可以自己维护管理数据。
6流式SQL有 5、Flink分层API