💥

BigData17:Structured Streaming

Created
Nov 2, 2021 12:04 PM
Describe
24
Link
Tags

前言

  • Spark2.3之后,Structured Streaming引入持续流式处理.

1. 实时数据处理框架

  • Storm
  • Spark
  • Flink
 
每次结果集更新,结果行写入到外部存储,三种模式:
  1. Complete Mode
    1. 整个结果写入外部存储
  1. Append Mode
    1. 新添加的结果写入外部存储
  1. Update Mode
    1. 被更新的结果写入外部存储
       
       

2. 基础步骤

  1. 编写SparkSession实例
  1. 创建DataFrame表示从数据源输入的每一行数据
  1. DataFrame转换,类似RDD转换操作
  1. 创建StreamingQuery开始流查询
  1. 调用StreamingQuery.awaitTermination()方法,等待流查询结束

3. 操作

  • 套接字流
  • 文件流
    • 支持文件类型:text、csv、json、pargut
    •