1. 概念2. DStream操作示意图2.1 DStream无状态转换操作2.2 DStream有状态转换操作2.3 Dstream输出3. Spark Straming VS Storm4. Spark Straming工作机制5. 基础步骤:
1. 概念
- 时间片(秒级,通常0.5秒~2秒之间)为单位进行拆分,类似批处理的方式处理每个时间片数据。
- Spark Streaming输入数据按照时间片分成一段一段,每一段数据转换为Spark中RDD,这些分段就是DStream。最终转变为相应的RDD的操作。
2. DStream操作示意图
2.1 DStream无状态转换操作
- map()
- flatMap()
- filter()
- repartition(numPartitions)
- count()
- reduce(func)
- countByValue()
- reduceByKey(func,[numTasks])
- join(othreStreaam,[numTasks])
- cogroup()
- transform()
2.2 DStream有状态转换操作
- 滑动窗口转换操作
- 窗口时间宽度
- 滑动时间宽度
- updateStateByKey操作
2.3 Dstream输出
- Dstream输出到文本
- Dstream写入到数据库
3. Spark Straming VS Storm
- Spark Straming采用小批量处理可以同时兼容批量和实时数据处理的逻辑和算法,方便需要历史数据和实时数据联合分析的特定应用场景。
- Strom可以实现毫秒表响应
4. Spark Straming工作机制
5. 基础步骤:
- 定义输入源
- 定义流计算
- 开始接收数据和处理流程
- 等待处理结束
- 手动结束流计算进程
创建StreamingContext对象