📌

Big Data Analytics for Earth Sciences: the EarthServer approach

Classification
数据分析
数据存储
Type
Journal Article
Magazine
International Journal of Digital Earth
Author
Peter Baumann
Published
March 2, 2015
Rate
⭐⭐
Quick Note
主要介绍EarthServer ,重点rasdaman
📌
摘要
  1. EarthServer 大地球数据分析引擎为覆盖类型的数据集提供解决方案,围绕高性能阵列数据库技术构建,以及服务交互标准(OGC WCS 和 WCPS)的采用和增强。
  1. 提供了一种从查询语言和可扩展性到移动访问和可视化的整体方法。
🍎
大数据定义
  • 第一个定义,由 META Group 的 Doug Laney(随后被 Gartner 收购;Laney 2001),
  • 3V—>5V
    • 3Vs: Volume, Velocity and Variety, Veracity, Value
🍀
地学大数据
  • 地球科学在存储和计算能力方面提出了重大挑战:
    • 学科应用广泛,异构信息,数据种类多
    • 传感器分辨提高,需要大量处理
    • 繁杂建模,需要快速处理
  • 地球观测小组 (GEO) 全体会议期间组织介绍和会议以及欧空局“空间大数据”会议(Bargellini 等人,2013 年)的联合组织,可以概括为以下一般要求列表(Mazzetti 等人,2013 年):
      1. 地球观测应用程序已经面临大数据问题,需要支持大数据处理和大数据分析的高级解决方案。
      1. 需要灵活的解决方案来实现对大数据的临时分析,以便按需进行科学数据探索。
      1. 用户需要支持多种数据模型减少数据传输的大数据技术。
      1. 用户需要先进的可视化技术,可以轻松集成到不同的 GUI 中,包括 Web 和移动系统。
  • 对于时空“大数据”,OGC 定义了统一覆盖模型(GMLCOV),将 ISO 19123 (ISO 2005 )的抽象模型细化为具体的、可互操作的模型,该模型可以进行到单个像素级别的一致性测试。
  • 多维数据实体上,WCPS 标准在可互操作处理方面实现了飞跃:它定义了一种强大且灵活的查询语言,在数据存档之上,覆盖数据能够用于复杂查询。
💡
数据服务基础设施
  • 基于数据层和文件的提取
  • 后端:Rasdaman(结构化阵列和原位),rasdaman 系统是所谓的阵列 DBMS,数组 DBMS 在大型多维数组上提供的服务质量与传统 SQL 系统在集合上提供的服务质量相同(例如查询语言、优化、并行和分布式查询处理)(Array DBMS 2014 ; Baumann et al. 2011)。
  • Rasdaman 是目前唯一可用于多 TB 资产的阵列 DBMS,完全并行化,并在可扩展性方面得到验证。
  • 对于时间序列分析,切片将随着时间的推移而拉伸,同时具有更小的空间占用,从而减少查询评估期间的磁盘访问。
  • EarthServer 搜索引擎提供查询语言、抽象数据模型和一系列协调服务。
  • 通过将大型数组划分为合适大小的易处理子数组
  • 加载多个图块来回答查询时,这些都可以并行处理,例如,在多核环境中。对于位于不同服务器节点上的对象,可以生成并行子查询
  • 在 rasdaman 中,查询群可以分布在支持 rasdaman 的服务器的对等网络上(“查询间并行化”),并且单个查询可以在 rasdaman 网络中拆分和分布(“查询内并行化”)。
    • 查询间并行化
      • 查询间并行化在不同节点之间
    • 查询内并行化
      • 查询内并行化巧妙地将复杂查询拆分为许多不同的小查询
📌
可视化
客户端接口的使,用户能够尽可能直接地与数据服务档案的内容进行交互,包括查询产生的聚合数据的地图和图形显示
点云 (LIDAR)、地下(SHARAD 探地雷达)数据等存在额外的可视化模块。其他功能包括注释、轴标签、网格、夸张、层分离等。结果表明,高质量、硬件-结合EarthServer服务器端技术和X3DOM客户端技术,可以在Web上实现多维数据的加速、灵活可视化(图2)。
🍎
相关工作
  • SciQL(Kersten 等人,2011 年),它使用数组操作扩展了 SQL,但使用了一种不同的范式,其中将数组视为表。预计这不会扩展到数百万个阵列,
  • 另一类系统受限于小型二维阵列;PostGIS 栅格(Paragon,nd.)、Oracle GeoRaster (Oracle, nd .) 和 Teradata 数组 (Teradata, nd .)
  • rasdaman 是唯一可用于多 TB 资产的阵列数据库,完全并行化,并在可扩展性方面得到验证。
  • OPeNDAP 是一个开发实现 DAP(数据访问协议)的 Hyrax 服务器的项目。
  • MapReduce应用
  • WCPS 是一种传统 SQL 中的高级语言,其中引擎在运行时确定如何在节点之间单独分配负载。
🍀
自我思考:
  • MapReduce在数据存储、查询方面的应用,SQL语句的应用效率。