1. 大数据概述DIKW金字塔4V3I2. 数据管理2.1 分布式文件系统2.1.1 Hadoop(HDFS)2.1.2 Ceph2.1.3 ClusterFS2.2 关系型数据库2.2.1 SQL on Hadoop2.3 NoSQL3. 数据分析4. 数据可视化5. 数据安全与隐私6. 大数据处理平台6.1 数据采集层6.2 数据存储层6.3 计算引擎6.4 数据分析工具批量计算(Batch Computing)流式计算(StreamingComputing)图计算(GraphComputing)内存大数据计算7. 城市大数据智慧城市智慧城市主要特点8. 工业大数据8.1 工业大数据新特征8.2 工业大数据应用特征8.3 工业大数据关键技术9. 数据开放与共享原则与政策10. 大数据的法律政策规范
1. 大数据概述
随着数据获取和计算技术的进步,大数据已成为一种新的国家战略资源,引起了学术界、产业界、政府及行业用户等高度关注。
我国充分认识到大数据时代带来的重大机遇,部署落实了一系列与大数据密切相关的规划。2015年,国务院印发《促进大数据发展行动纲要》,系统部署大数据发展工作。目前,多个省市已经出台大数据相关政策,一些地方政府专门设置大数据管理部门,为大数据基础设施、技术创新、产业发展营造了良好环境。党的十九大报告在深化供给侧结构性改革中指出:“加快建设制造强国,加快发展先进制造业,推动互联网、大数据、人工智能和实体经济深度融合,在中高端消费、创新引领、绿色低碳、共享经济、现代供应链、人力资本服务等领域培育新增长点、形成新动能。”更加明确大数据应与各个行业深度融合。
DIKW金字塔
4V
- Volume 规模庞大
- Variety 种类繁多
- Velcity 变化频繁
- Value 价值巨大但价值密度低
3I
- Inexact 近似性
- Incremental 增量性
- Inductive 归纳性
云计算是一种基于互联网的、大众按需、随时随地获取计算资源与能力进行计算的新计算模式。它通过将规模化数据中心的计算资源与能力(包括计算能力、存储能力等)聚合起来,形成共享资源池,并通过无处不在的宽带网络访问,为企业和个人提供快速灵活、按需应变的自助服务。
作为一种服务模式,云计算将“计算力”变为公用设施,云服务的用户(也称为租户,如开发移动互联网应用的创业企业)可以不再维护自己的服务器机房或数据中心,转而将自己的服务器端业务部署在租用的云服务上,并可以根据业务量的规模动态调整租用云服务的数量和性能,从而降低企业的综合运营成本。而作为云服务的提供商,则可以通过规模化资源池的运维,按需灵活地配置计算资源,提高资源利用率,并发挥规模效应,降低成本。
大数据应用场景中数据计算量巨大,分布式逐渐取代单机成为大数据处理平台的主流模式。以大数据的计算为例,一次计算请求通常需要多机协作共同完成,不同的计算请求所需的资源种类和数量均可能有所不同。为保障各个计算请求均能得到及时的响应,灵活、高效的资源分配和回收管控必不可少。此外,大数据的一次计算可能耗时较长,在计算期间各计算节点可能出现网络传输延迟、数据损坏甚至节点不可访问等问题,冗余备份、容错等可靠性策略和计算调度策略是确保大数据处理能够快速、准确完成的重要保障机制。云计算在大规模分布式存储、管理和计算上取得的突破,为面向大数据的分析处理提供了计算能力的支撑。云计算技术可以为大数据处理平台提供高效、可靠的资源管控保障,云计算也面向大数据管理和处理提供针对性的云服务。因此可以说,大数据应用并不一定必须部署在云上,但采用云计算部署大数据应用则可以将许多资源管理、安全运维等任务交给云服务提供商,从
而降低大数据应用部署的技术门槛,支撑大数据业务,这也是为什么很多的行业或领域大数据都有对应的行业云的提法。
2. 数据管理
2.1 分布式文件系统
2.1.1 Hadoop(HDFS)
2.1.2 Ceph
2.1.3 ClusterFS
2.2 关系型数据库
二维表
结构化查询语言(Structured Query Language,SQL)
事务
- 原子性
- 一致性
- 隔离性
- 持久性
2.2.1 SQL on Hadoop
- Hive
- Impala
- SparkSQL
2.3 NoSQL
3. 数据分析
4. 数据可视化
5. 数据安全与隐私
6. 大数据处理平台
6.1 数据采集层
- Sqoop可以将传统的关系型数据库中的数据导入HDFS
- Scrapy Web爬虫技术
- Flume 高可用、高可靠、分布式的海量日志采集、聚合和传输
6.2 数据存储层
- HDFS
- Swift
- Kafka
6.3 计算引擎
- MapReduce
- Storm
- Giraph
- Spark
6.4 数据分析工具
- Hive
- Spark SQL
- Spark Streaming
- MLib
- Craphx
批量计算(Batch Computing)
流式计算(StreamingComputing)
图计算(GraphComputing)
- BSP
内存大数据计算
- Spark
7. 城市大数据
智慧城市
光纤通讯、无线互联网、物联网、云计算、三网融合等技术。
数字城市为智慧城市奠定了坚实的基础。数字城市是智慧城市的线性和基础。
物联网为智慧城市战略提供了新一代信息基础设施。
云计算为智慧城市提供了新的应用服务模式,能够承载海量式是数据的存储和计算,为解决数据孤岛问题提供了技术支撑。
智慧城市主要特点
- 多学科交叉
- 数据驱动
- 区域特性
8. 工业大数据
8.1 工业大数据新特征
- 多模态
- 强关联
- 高通量
8.2 工业大数据应用特征
- 跨尺度
- 协同性
- 多因素
- 因果性
- 强机制
8.3 工业大数据关键技术
- 工业数据采集技术
- 工业数据高效管理技术
- 低质量数据处理技术
- 强机理业务分析技术