pyflink连接iceberg 实践_路新航的博客-CSDN博客
参考:https://nightlies.apache.org/flink/flink-docs-release-1.13/api/python/index.html 数据流处理的框架 这个框架是同时运行在多台主机上 通过某种方式这多台主机之间可以通信 可以单机运行 pyflink只是对java的flink的一个调用工具,不能直接用python来对source、sink组件进行实现。 Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。 PyFlink 的核心目标: 1.将 Flink 能力输出到 Python 用户,进而可以让 Python 用户使用所有的 Flink 能力。 2.将 Python 生态现有的分析计算功能运行到 Flink 上,进而增强 Python 生态对大数据问题的解决能力。 第一个,事件驱动型,比如:刷单,监控等; 第二个,数据分析型的,比如:库存,双11大屏等; 第三个适用的场景是数据管道,也就是ETL场景,比如一些日志的解析等; 第四个场景,机器学习,比如个性推荐等。 Flink 为流/批处理应用程序提供了不同级别的抽象。 SQL Table API DataStream/DataSet API(核心 API) Stateful Stream Processing PyFlink API 完全与 Java Table API 对齐,各种关系操作都支持,同时对 window 也有很好的支持,除了这些 APIs,PyFlink还提供多种定义 Python UDF 的方式.
https://blog.csdn.net/weixin_38235865/article/details/125917104