BookRecord7:大数据导论
📌

BookRecord7:大数据导论

Tags
⭐⭐
Created
Dec 17, 2021 02:54 AM
Last Edited
Last updated January 8, 2022
Property

1. 大数据概述

随着数据获取和计算技术的进步,大数据已成为一种新的国家战略资源,引起了学术界、产业界、政府及行业用户等高度关注。
我国充分认识到大数据时代带来的重大机遇,部署落实了一系列与大数据密切相关的规划。2015年,国务院印发《促进大数据发展行动纲要》,系统部署大数据发展工作。目前,多个省市已经出台大数据相关政策,一些地方政府专门设置大数据管理部门,为大数据基础设施、技术创新、产业发展营造了良好环境。党的十九大报告在深化供给侧结构性改革中指出:“加快建设制造强国,加快发展先进制造业,推动互联网、大数据、人工智能和实体经济深度融合,在中高端消费、创新引领、绿色低碳、共享经济、现代供应链、人力资本服务等领域培育新增长点、形成新动能。”更加明确大数据应与各个行业深度融合。

DIKW金字塔

notion image
 

4V

  • Volume 规模庞大
  • Variety 种类繁多
  • Velcity 变化频繁
  • Value 价值巨大但价值密度低
 

3I

  • Inexact 近似性
  • Incremental 增量性
  • Inductive 归纳性
 
云计算是一种基于互联网的、大众按需、随时随地获取计算资源与能力进行计算的新计算模式。它通过将规模化数据中心的计算资源与能力(包括计算能力、存储能力等)聚合起来,形成共享资源池,并通过无处不在的宽带网络访问,为企业和个人提供快速灵活、按需应变的自助服务。
作为一种服务模式,云计算将“计算力”变为公用设施,云服务的用户(也称为租户,如开发移动互联网应用的创业企业)可以不再维护自己的服务器机房或数据中心,转而将自己的服务器端业务部署在租用的云服务上,并可以根据业务量的规模动态调整租用云服务的数量和性能,从而降低企业的综合运营成本。而作为云服务的提供商,则可以通过规模化资源池的运维,按需灵活地配置计算资源,提高资源利用率,并发挥规模效应,降低成本。
大数据应用场景中数据计算量巨大,分布式逐渐取代单机成为大数据处理平台的主流模式。以大数据的计算为例,一次计算请求通常需要多机协作共同完成,不同的计算请求所需的资源种类和数量均可能有所不同。为保障各个计算请求均能得到及时的响应,灵活、高效的资源分配和回收管控必不可少。此外,大数据的一次计算可能耗时较长,在计算期间各计算节点可能出现网络传输延迟、数据损坏甚至节点不可访问等问题,冗余备份、容错等可靠性策略和计算调度策略是确保大数据处理能够快速、准确完成的重要保障机制。云计算在大规模分布式存储、管理和计算上取得的突破,为面向大数据的分析处理提供了计算能力的支撑。云计算技术可以为大数据处理平台提供高效、可靠的资源管控保障,云计算也面向大数据管理和处理提供针对性的云服务。因此可以说,大数据应用并不一定必须部署在云上,但采用云计算部署大数据应用则可以将许多资源管理、安全运维等任务交给云服务提供商,从 而降低大数据应用部署的技术门槛,支撑大数据业务,这也是为什么很多的行业或领域大数据都有对应的行业云的提法。
notion image
 

2. 数据管理

2.1 分布式文件系统

2.1.1 Hadoop(HDFS)

2.1.2 Ceph

2.1.3 ClusterFS

notion image

2.2 关系型数据库

二维表
结构化查询语言(Structured Query Language,SQL)
事务
  • 原子性
  • 一致性
  • 隔离性
  • 持久性

2.2.1 SQL on Hadoop

  • Hive
  • Impala
  • SparkSQL

2.3 NoSQL

notion image
notion image

3. 数据分析

4. 数据可视化

5. 数据安全与隐私

notion image

6. 大数据处理平台

notion image
 

6.1 数据采集层

  • Sqoop可以将传统的关系型数据库中的数据导入HDFS
  • Scrapy Web爬虫技术
  • Flume 高可用、高可靠、分布式的海量日志采集、聚合和传输

6.2 数据存储层

  • HDFS
  • Swift
  • Kafka

6.3 计算引擎

  • MapReduce
  • Storm
  • Giraph
  • Spark

6.4 数据分析工具

  • Hive
  • Spark SQL
  • Spark Streaming
  • MLib
  • Craphx
 

批量计算(Batch Computing)

流式计算(StreamingComputing)

图计算(GraphComputing)

  • BSP

内存大数据计算

  • Spark
 
 

7. 城市大数据

智慧城市

光纤通讯、无线互联网、物联网、云计算、三网融合等技术。
数字城市为智慧城市奠定了坚实的基础。数字城市是智慧城市的线性和基础。
物联网为智慧城市战略提供了新一代信息基础设施。
云计算为智慧城市提供了新的应用服务模式,能够承载海量式是数据的存储和计算,为解决数据孤岛问题提供了技术支撑。

智慧城市主要特点

  1. 多学科交叉
  1. 数据驱动
  1. 区域特性

8. 工业大数据

notion image

8.1 工业大数据新特征

  • 多模态
  • 强关联
  • 高通量

8.2 工业大数据应用特征

  • 跨尺度
  • 协同性
  • 多因素
  • 因果性
  • 强机制

8.3 工业大数据关键技术

  1. 工业数据采集技术
  1. 工业数据高效管理技术
  1. 低质量数据处理技术
  1. 强机理业务分析技术
notion image
 
notion image
 
notion image
 

9. 数据开放与共享原则与政策

 

10. 大数据的法律政策规范