摘要
- 空间地球数据的统一表示是一个重要的科学问题。跨学科空间地球数据资源的分析和挖掘有助于发现隐藏的科学知识,甚至揭示不同学科之间的内在联系。然而,跨学科空间地球数据之间不同的描述方法和内部结构给地球环境研究中的统一数据管理和协同分析带来了重大挑战。针对这一问题,本文提出了一种跨学科空间地球数据的统一表示方法。
HighLights
研究目标
- 统一表示方法的核心包括通用元数据模型、实体数据组织模型和数据存储格式。本研究通过建立通用元数据模型和实体数据组织模型,分别实现了统一的元数据描述和实体数据组织。
研究内容
- 海量的多学科空间地球数据中蕴含着丰富的信息,其中隐藏着未被发现的科学知识。因此,进一步挖掘知识,发现各种垂直球体的科学规律是当前的研究热点,其中首先是解决在统一的时空框架下组织和管理空间地球数据的问题(Sudmanns et al., 2020) .
- 描述数据的方法和指南各不相同,导致元数据文件的结构和内容多样,这阻碍了多学科数据之间的互操作性(Wang et al., 2019)。
- 多学科的数据组织结构和数据格式也存在差异,导致数据处理和分析复杂(Yan, Chen, Chen, & Liang, 2020)。
- 上述数据表示上的差异不利于空间地球数据的统一管理、协同应用和共享。因此,实现异构数据的统一表示具有重要意义。
- 建立元数据模型是数据科学领域的重点之一,也是数据标准化的前提和保障(Chan & Zeng,2006)。为促进数据应用,不同学科往往建立各自的元数据模型,结构和内容各异,给数据交换、整合和统一管理带来不便(Li & Huang,2017 ))。
- 在地球科学领域,构建地理空间元数据标准的研究一直是国内外的研究热点。国际标准化组织(ISO)、联邦地理数据委员会(FGDC)和美国国家航空航天局(NASA)等国家和联邦标准组织成立了工作组,从不同方面讨论标准的制定。目前,主要的地理空间元数据标准包括地理信息元数据标准(ISO 19115)(ISO/TC211,2019 )、数字地理空间元数据内容标准(CSDGM)(NASA,2002)。在空间物理和天文学方面,数据主要遵循空间物理档案搜索和提取(SPASE)(NASA,2020)。
- 与HDF4相比,HDF5克服了限制,支持更大的文件和更多的数据类型;这是 HDF5 与其他图像数据格式最大的区别。目前,NASA 和 NOAA 采用 HDF 作为其标准数据存储格式。
研究方法
- 利用统一建模语言(UML)建立了一个通用的元数据模型,该模型适用于多种类型的空间地球数据,实现了对地球空间数据的统一描述。
- 通用元数据模型(General Metadata Model,GMM)
- 各个学科都有独立的数据采集和处理数据管理系统和方法。由于数据采集和处理过程复杂,多学科协同分析复杂,导致数据资源利用效率低。以统一的形式管理不同的数据类型更有利于协同应用和分析(Wu, Shen, Wang, & Wu, 2020)。本研究建立空间地球数据的数据组织模型,实现统一组织。
- 数据格式的实体数据组织模型有两种实现方式。一是使用提供成熟接口的现有数据格式。这种方法可以保证数据的可读性,快速实现数据的处理和分析。二是开发新的数据格式和相应的基础函数库。这种方法需要大量的人力、物力和时间资源。此外,用户熟悉新的数据格式需要时间,这将影响数据处理和科学研究的进展。SEDF以层次结构组织数据,内容大致分为三个部分:
- 跨学科空间地球数据的描述存储在元数据组中,最初是一个 XML 文件;
- 观测数据,也称为实体数据,包括图像、多维数组和文本记录,存储在实体数据组中,不同的数据格式为原始形式;
- 未包含在元数据文件中的空间地球数据的其他描述存储在其他信息组中。
结论
- asd
讨论
解决的问题
正文