前言
- Spark2.3之后,Structured Streaming引入持续流式处理.
1. 实时数据处理框架
- Storm
- Spark
- Flink
每次结果集更新,结果行写入到外部存储,三种模式:
- Complete Mode
整个结果写入外部存储
- Append Mode
新添加的结果写入外部存储
- Update Mode
被更新的结果写入外部存储
2. 基础步骤
- 编写SparkSession实例
- 创建DataFrame表示从数据源输入的每一行数据
- DataFrame转换,类似RDD转换操作
- 创建StreamingQuery开始流查询
- 调用StreamingQuery.awaitTermination()方法,等待流查询结束
3. 操作
- 套接字流
- 文件流
- 支持文件类型:text、csv、json、pargut