一、静态数据和流数据
1.静态数据
- 为支持决策分析而构建数据仓库,存放的的大量历史数据就是静态数据。
- 批量计算
- 利用数据挖掘和OLAP(On-Line Analytical Processing)分析工具静态数据提取价值信息。
2.流数据
- web应用、网络监控、传感监测,新的数据密集型应用—流数据
- 实时计算
- Strom
- Spark Streaming
3.流计算
- 数据的价值随着时间的流逝而降低
- 应用:点击商品推送相关商品
- 高性能
- 海量式
- 实时性
- 分布式
- 易用性
- 可靠性
4.流计算框架
- 商业级
- IBM InfoSphere Streams和IBM StreamBase
- 开源
- Twitter Strom
- Yahoo S4(Simple Scalable Straming System)
- 公司
- Facebook Puma
- Dstream(百度)
- 银河流数据处理平台(淘宝)
5.传统数据处理流程 VS 流计算处理流程
- 存储旧数据
- 用户主动发出查询获取结果
- 数据实时采集
- 数据实时计算
- 实时查询服务