1. 技术
- kafka分布式消息队列
- Spark StructuredStreaming计算引擎
- Spark SQL实时计算、历史数据统计分析
- HBase存储历史数据
- Hive数据仓库
- 各类异构数据的结构和存储方式多样,单一的存储方式无法满足需求
- Kafka是基于Zookeeper协调服务的分布式消息队列系统,其核心功能为高吞吐量的发布-订阅消息服务,主要应用于日志收集和消息队列服务,可在廉价的商用机器上实现数据的高吞吐和高可用[6]。
2. 平台架构
2.1 数据采集
- 数据交互标准协议
2.2 数据传输层
- 传输服务及kafka集群
2.3 数据计算层
- Spark Structured Streaming流式计算框架
2.4 存储方式
- 数据存储层由关系型数据库、非关系型数据库及数据仓库组成,通过各类标准化数据驱动对外提供数据读写服务。
2.5 数据服务层
- 实时数据服务接口
- 历史数据查询接口
- 各类分析接口