📌

Big Data and cloud computing: innovation opportunities and challenges

Classification
数据存储
数据分析
可视化
Type
Journal Article
Magazine
International Journal of Digital Earth
Author
Chaowei Yang
Published
September 17, 2016
Rate
⭐⭐⭐⭐
Quick Note
主要介绍了大数据、云计算未来创新和研究

Notes:

📌
数据来源
传感器、数字化仪、扫描仪、数值建模、手机、互联网、视频、电子邮件和社交网络。
🍎
数据类型
文本、几何图形、图像、视频、声音以及它们的组合。
🍀
云计算
云计算为解决共享计算资源(包括计算、存储、网络和分析软件)的挑战提供了基础支持;
💡
大数据特点
容量、速度、多样性、真实性和价值为特征的加速数据领域(即大数据的 5Vs;Marr 2015)。
📌
利用
生成、收集、存储、管理、处理、分析、呈现和利用数据,以及衍生的信息和知识。
 

大数据技术挑战

🍎
各领域特点
notion image
📌
大数据技术挑战
📌
数据存储
  1. 硬盘驱动器 (HDD) 经常出现故障,而传统数据保护机制(例如 RAID 或独立磁盘冗余阵列)对于 PB 级存储效率不高(Robinson 2012)。
  1. 大数据传输和托管在云上的成本很高(Yang、Xu 和 Nebert,2013 年)。
  1. 需要开发原则和算法,考虑到数据使用的时空模式,通过平衡存储和数据传输成本与大数据的快速积累来确定数据的分析价值及其保存数据集(Padgavankar and Gupta 2014))。
🍎
数据传输
  1. 从传感器到存储的数据收集
  1. 多个数据中心的数据整合
  1. 将集成数据传输到处理平台(例如云平台)的数据管理
  1. 将数据从存储移动到分析主机(例如高性能计算 (HPC) 集群)的数据分析
  1. 需要智能的预处理技术和数据压缩算法在传输数据之前有效地减少数据大小(Yang, Long, and Jiang 2013)。
🍀
数据管理
  1. 大数据的多样性和准确性正在重新定义数据管理范式,需要新技术(例如 Hadoop、NoSQL)来清理、存储和组织非结构化数据(Kim、Trimi 和 Chung,2014 年)。
  1. 数据的高维(3D 空间和1D 时间)和复杂性(例如时空相关性和依赖性)
  1. 大数据还对数据库管理系统 (DBMS) 提出了挑战,因为传统的 RBDMS 缺乏管理和存储非结构化大数据的可扩展性 (Pokorny 2013 ; Chen et al. 2014a )。
  1. 虽然MongoDB 和 HBase 等非关系 (NoSQL) 数据库专为大数据而设计(Han 等人,2011 年;Padhy、Patra 和 Satapathy 2011 年)),如何通过开发高效的时空索引和查询算法来定制这些 NoSQL 数据库来处理地理空间大数据仍然是一个具有挑战性的问题 (Whitman et al. 2014 ; Li et al. 2016a )。
💡
数据处理
  1. 处理大量数据需要专用的计算资源,这部分是通过 CPU、网络和存储的速度提高来解决的(Bertino 等人,2011 年)。
  1. 处理大数据所需的计算资源远远超过传统通勤范式提供的处理能力(Ammn 和 Irfanuddin 2013)。作为部分解决方案,云计算提供了几乎无限的按需处理能力。
  1. 迁移到云会带来许多新问题。首先是云计算网络带宽的限制,这会影响大数据量的计算效率(Bryant、Katz 和 Lazowska 2008)。
  1. 大数据的准确性需要在进行数据分析和挖掘(例如聚类分析、分类、机器学习)之前进行预处理,以获得更好的质量(LaValle 等人,2013 年;Mayer-Schönberger 和 Cukier 2013 年)。
📌
数据分析
  1. 信息提取和预测(Fan and Liu 2013 ; Chen et al. 2014b)。
  1. “分而治之”的策略不适用于深度和多尺度迭代(Chen and Zhang 2014) 是大多数地理空间数据分析/挖掘算法所需的。
  1. 整合时空原理优化现有空间分析算法 (Yang et al. 2011b ) 以加速地理空间知识发现具有挑战性,并已成为“时空思维、计算和应用”的优先研究领域 (Cao, Yang, and黄2009 ; 杨2011; 杨等人。2014 年;李等人。2016a )。
🍎
数据可视化
  1. 大数据在类型、结构和语义上通常是异构的,因此可视化对于理解大数据至关重要(Chen 等人2014b;Padgavankar 和 Gupta 2014)。
  1. SAS(2012 年)) 总结了大数据可视化的五个关键功能如下:
    1. 高度交互的图形结合了数据可视化的最佳实践
    2. 集成、直观且易于理解的可视化分析
    3. 基于网络的交互界面,用于在可视化之前预览、过滤或采样数据
    4. 内存处理
    5. 移动设备和门户网站轻松分发答案和洞察力。
由于大数据的许多特性,包括多数据源的融合以及地理空间数据的高维和高空间分辨率,设计和开发这些功能具有挑战性(Fox and Hendler 2011 ; Reda et al. 2013)。
🍀
数据整合
  1. Dong 和 Divesh ( 2015 ) 总结了模式映射、记录链接和数据融合的数据集成挑战。
  1. 从大数据高效且自动地创建元数据仍然是一项具有挑战性的任务(Gantz 和 Reinsel 2011)。
💡
数据架构
理想的架构将无缝合成和共享数据、计算资源、网络、工具、模型以及最重要的人员(Wright 和 Wang 2011)。
📌
数据安全
  1. 以前的数据加密研究主要集中在中小型数据上,由于性能和可扩展性的问题,它不适用于大数据(Chen et al. 2014b)。
  1. 在云时代,由于数据所有者对虚拟化存储的控制有限,确保数据的机密性、完整性和可用性成为一个基本问题(Kaufman 2009 ; Wang et al. 2009 ; Feng et al. 2011 ; Chen and Zhao2012 年)。
🍎
数据隐私挑战
智能设备和计算平台之间前所未有的网络有助于大数据,但在个人位置、行为和交易被数字化记录的情况下带来了隐私问题(Cukier 2010;Tene 2011;Michael 和 Miller 2013;Cheatham 2015)。
🍀
数据质量
数据质量包括四个方面:准确性、完整性、冗余性和一致性(Chen et al. 2014b)。大数据的复杂性和异质性的内在本质使得数据的准确性和完整性难以识别和跟踪,从而增加了“错误发现”的风险(Lohr 2012)。

方法、技术和解决方案

notion image
 

1. 数据存储、管理和模型

  • 分布式文件/存储系统
  • NoSQL数据库系统
  • 搜索、查询、索引和数据模型设计
 

2. 数据处理、挖掘和知识发现

  • MapReduce(Hadoop)系统
  • 并行编程语言
  • 统计分析、机器学习和数据挖掘
  • 大数据分析和可视化
  • 语义和本体驱动的方法

3. 移动数据采集、计算和近场通讯

4. 大数据计算和处理基础设施

  • 计算基础设施
  • 管理和处理架构
  • 远程协作
  • 云端监控与追踪
  • 能源效率和成本管理

云计算应对大数据

  • 按需资源提供
  • 调度
  • 可扩展性
  • 数据局部性
  • 社交媒体和其他流数据的云计算