摘要
- EarthServer 大地球数据分析引擎为覆盖类型的数据集提供解决方案,围绕高性能阵列数据库技术构建,以及服务交互标准(OGC WCS 和 WCPS)的采用和增强。
- 提供了一种从查询语言和可扩展性到移动访问和可视化的整体方法。
大数据定义
- 第一个定义,由 META Group 的 Doug Laney(随后被 Gartner 收购;Laney 2001),
- 3V—>5V
3Vs: Volume, Velocity and Variety, Veracity, Value
地学大数据
- 地球科学在存储和计算能力方面提出了重大挑战:
- 学科应用广泛,异构信息,数据种类多
- 传感器分辨提高,需要大量处理
- 繁杂建模,需要快速处理
- 地球观测小组 (GEO) 全体会议期间组织介绍和会议以及欧空局“空间大数据”会议(Bargellini 等人,2013 年)的联合组织,可以概括为以下一般要求列表(Mazzetti 等人,2013 年):
- 地球观测应用程序已经面临大数据问题,需要支持大数据处理和大数据分析的高级解决方案。
- 需要灵活的解决方案来实现对大数据的临时分析,以便按需进行科学数据探索。
- 用户需要支持多种数据模型并减少数据传输的大数据技术。
- 用户需要先进的可视化技术,可以轻松集成到不同的 GUI 中,包括 Web 和移动系统。
- 对于时空“大数据”,OGC 定义了统一覆盖模型(GMLCOV),将 ISO 19123 (ISO 2005 )的抽象模型细化为具体的、可互操作的模型,该模型可以进行到单个像素级别的一致性测试。
- 多维数据实体上,WCPS 标准在可互操作处理方面实现了飞跃:它定义了一种强大且灵活的查询语言,在数据存档之上,覆盖数据能够用于复杂查询。
数据服务基础设施
- 基于数据层和文件的提取
- 后端:Rasdaman(结构化阵列和原位),rasdaman 系统是所谓的阵列 DBMS,数组 DBMS 在大型多维数组上提供的服务质量与传统 SQL 系统在集合上提供的服务质量相同(例如查询语言、优化、并行和分布式查询处理)(Array DBMS 2014 ; Baumann et al. 2011)。
- Rasdaman 是目前唯一可用于多 TB 资产的阵列 DBMS,完全并行化,并在可扩展性方面得到验证。
- 对于时间序列分析,切片将随着时间的推移而拉伸,同时具有更小的空间占用,从而减少查询评估期间的磁盘访问。
- EarthServer 搜索引擎提供查询语言、抽象数据模型和一系列协调服务。
- 通过将大型数组划分为合适大小的易处理子数组。
- 加载多个图块来回答查询时,这些都可以并行处理,例如,在多核环境中。对于位于不同服务器节点上的对象,可以生成并行子查询。
- 在 rasdaman 中,查询群可以分布在支持 rasdaman 的服务器的对等网络上(“查询间并行化”),并且单个查询可以在 rasdaman 网络中拆分和分布(“查询内并行化”)。
- 查询间并行化
- 查询内并行化
查询间并行化在不同节点之间
查询内并行化巧妙地将复杂查询拆分为许多不同的小查询
可视化
客户端接口的使,用户能够尽可能直接地与数据服务档案的内容进行交互,包括查询产生的聚合数据的地图和图形显示。
点云 (LIDAR)、地下(SHARAD 探地雷达)数据等存在额外的可视化模块。其他功能包括注释、轴标签、网格、夸张、层分离等。结果表明,高质量、硬件-结合EarthServer服务器端技术和X3DOM客户端技术,可以在Web上实现多维数据的加速、灵活可视化(图2)。
相关工作
- SciQL(Kersten 等人,2011 年),它使用数组操作扩展了 SQL,但使用了一种不同的范式,其中将数组视为表。预计这不会扩展到数百万个阵列,
- 另一类系统受限于小型二维阵列;PostGIS 栅格(Paragon,nd.)、Oracle GeoRaster (Oracle, nd .) 和 Teradata 数组 (Teradata, nd .)
- rasdaman 是唯一可用于多 TB 资产的阵列数据库,完全并行化,并在可扩展性方面得到验证。
- OPeNDAP 是一个开发实现 DAP(数据访问协议)的 Hyrax 服务器的项目。
- MapReduce应用
- WCPS 是一种传统 SQL 中的高级语言,其中引擎在运行时确定如何在节点之间单独分配负载。
自我思考:
- MapReduce在数据存储、查询方面的应用,SQL语句的应用效率。