摘要
HighLights
研究目标
研究内容
研究方法
结论
讨论
解决的问题
正文
- 在过去的 30 年中,地球大数据的生产和收集速度一直在迅速增长(Gantz & Reinsel,2012 年;Mahdavi-Amiri、Alderson 和 Samavati,2015 年),仅地球观测数据的数量每 2 年翻一番( Riensel、Gantz 和 Rydning,2017 年)。数据量的增加伴随着速度和多样性的相应增加(Soubra,2012 年),这也带来了在验证数据和确定数据价值方面的进一步问题(Guo 等人,2017 年)。
- 地球大数据是指与地球科学相关的大数据,来源于但不限于地球观测。地球大数据具有海量、多源、异构、多时相、多标量、高维、高度复杂、非平稳、非结构化等特征。
- 地球大数据作为一个问题空间太大,无法用任何形式的结构进行明智的讨论。相反,我们将问题空间分解为:存储、处理、可视化、管理和挖掘作为五个主要问题领域。
- 大地球项目收集的数据正在按照摩尔定律(Moore,2006 年)增长,以填补可用空间。💥💥💥
Moore, Gordon E. "Cramming more components onto integrated circuits, Reprinted from Electronics, volume 38, number 8, April 19, 1965, pp. 114 ff." IEEE solid-state circuits society newsletter 11.3 (2006): 33-35.
- 分布式计算技术的使用增加和可用云计算设施的增长(Assunção、Calheiros、Bianchi、Netto 和 Buyya,2015 年;Yang、Huang、Li、Li、Li、&Hu,2017 年)已经开始解决核心问题分发/共享和处理大地球数据项目中涉及的超大型数据集(Munroe,2017 年)。同时,已经开发了大规模简化处理技术以实现这些分布式计算平台的实际使用。借助 HADOOP 风格的开源项目(Fernández 等人,2014 年;Patel、Birla 和 Nair,2012 年),独立研究人员现在可以管理大地球数据项目。
- 数据立方体是一种在通用系列上表示大型数据集的方式,但是,正如 Baumann 指出的(Baumann,2017 年),数据立方体的标准化存在问题——目前不存在这样的标准化。
- 作为 EarthServer2(Earth Server,2015)的一部分,正在尝试将两个通用标准,即 XPATH(W3C,2017b)和 WCPS(Open Geospatial Consortium,2009)合并到新的 xWCPS(EarthServer,2016)标准中。希望解决与数据立方体和数据立方体元数据标准化相关的问题(Baumann,2017 年)。
- 正如 Yang, Huang, Li, Liu, & Hu ( 2016 ) 所强调的,将 SQL 和 NoSQL 数据库结合到大数据环境中(即高可扩展性、容错性和可用性)允许创建特定于大数据的云风格平台,例如知识即服务 (KaaS)。
- 为了获得最佳性能,选择的数据库类型必须适合项目。AGDC(澳大利亚地球科学数据立方体)项目(Lewis 等人,2017) 显示了数据库模型从版本 1 中的完全关系数据库到版本 2 中与 NoSQL 组合的极简关系数据库的显着变化。这种变化有助于添加多种不同的传感器数据类型并将相关元数据类型集成到项目中。
- 虽然最佳存储大小是大地球数据的一个关键考虑因素,但更紧迫的问题来自访问速度。
- 查询这些数据库并以可用格式检索数据是一项艰巨的任务,需要将处理语言与适当的平台相匹配。虽然有许多语言可以执行此任务,但只有两个主要标准规定了这些语言的操作方式: WCPS(Web 覆盖处理服务)(开放地理空间联盟,2009 年)用于控制基于栅格数据的检索;XPATH(XML 路径语言)(W3C,2017b)旨在控制以 XML 格式存储的数据的检索。
- CASEarth是中国科学院(中国科学院)近期启动的地球大数据项目,郭(2017 )) 概述了 CASEarth 建立国际地球大数据科学中心的主要目标,该中心将具有三个主要目标,即开发世界领先的地球大数据基础设施、世界一流的地球大数据平台和构建决策支持系统。
使用