摘要
HighLights
研究目标
研究内容
研究方法
结论
讨论
解决的问题
正文
- 地球科学家收集的数据比以往任何时候都多,但位于孤立服务器上的原始数据几乎没有用处。最近在语义和关联开放数据标准方面的工作允许以具有开放访问许可证的 Web 标准格式发布数据集,在数据集之间创建链接以进一步实现互操作性。
- 语义、本体表示、跨领域科学准确的概念映射、知识图谱和关联开放数据的应用都是积极研究的领域,以促进数据的搜索和集成,而无需大量的人工操作。
- 科学知识有多种形式,使用不同的隐性和显性表示:假设、模型、理论、方程、假设、数据表征等。这些表示都是相互关联的,应该可以根据需要将知识从一种表示流畅地转换为另一种表示。一个主要的研究挑战是科学知识的替代表示的无缝互操作,从描述到分类到数学,从事实到解释和替代假设,从小到大,从孤立的过程到复杂的综合现象。
- 地球科学家已知的大部分数据都以半结构化格式存储,例如电子表格或文本,结构化搜索机制无法访问。需要自动化技术来识别这些类型的数据并将其导入结构化知识库。
- 地球科学数据需要跨越许多空间和时间尺度。由于不可能一直监控所有尺度的每一次测量,因此迫切需要智能的传感方法。
- 公民科学家可以贡献有用的数据(例如,通过地理定位的移动设备收集),否则这些数据的获取成本会很高。通过众包收集数据的一个挑战是确保地球科学研究所需的高质量数据。
- 地球科学面临着惊人的数据集成挑战。大多数棘手的地球科学问题都要求科学家跨越子学科界限并共享大量数据。这个问题的另一个方面是数据跨越了各种各样的模式和极大地变化的时间和空间尺度。在这种情况下,分布式数据发现工具、元数据转换器和更具描述性的标准正在出现。未解决的问题包括跨域概念映射、实体解析和科学有效的数据链接,以及用于查找、集成和重用数据的有效工具。