💥

BigData17:Structured Streaming

Created

Nov 2, 2021 12:04 PM

Describe

24

Link

Tags

前言 1. 实时数据处理框架 2. 基础步骤 3. 操作

前言

Spark2.3之后，Structured Streaming引入持续流式处理.

1. 实时数据处理框架

Storm

Spark

Flink

每次结果集更新，结果行写入到外部存储，三种模式：

Complete Mode

整个结果写入外部存储

Append Mode

新添加的结果写入外部存储

Update Mode

被更新的结果写入外部存储

2. 基础步骤

编写SparkSession实例

创建DataFrame表示从数据源输入的每一行数据

DataFrame转换，类似RDD转换操作

创建StreamingQuery开始流查询

调用StreamingQuery.awaitTermination()方法，等待流查询结束

3. 操作

套接字流

文件流

支持文件类型：text、csv、json、pargut