摘要
- 当前的瓶颈包括资源使用效率低下和数据组织不足。适当地扩展问题需要解决这两个挑战,而现有的数据格式不再能够胜任这项任务。
- 建议格式的任何数据集都是自我描述的,可以很容易地与他人交换,促进协作。
- 为了不重新发明轮子并在过去的发展基础上再接再厉,我们尽可能使用现有的标准,如 QuakeML、StationXML、W3C PROV 和 HDF5。
HighLights
研究目标
- 最终目标是使地震学家能够专注于实际科学。
研究内容
- 确定了新数据格式必须解决的五个关键问题,即:
- 效率
- 数据组织
- 数据交换
- 再现性(Reproducibility)
- 数据挖掘、可视化和理解
研究方法
- 相比之下,ASDF 是一种定义明确的格式,可用于存储和交换完整的地震数据集,包括所有必要的元信息。
- 如果一个项目持续了几年,最终可能不再知道数据是如何处理的。团队的组成可能已经改变,或者处理软件可能有一个同时修复的错误,这可能会或可能不会影响数据。即数据历史的跟踪和存储,解决了这个特定的问题,ASDF 适应了这个问题。
- 高频波形模拟和物理上合理的地球模型在计算上非常昂贵,因此保存和仔细记录此类模拟具有巨大的价值。
- 重要的是,ASDF 在具有所需硬件的现代集群上提供高效的并行 I/O。这有助于实际扩展的完全并行的数据处理工作流。
结论
讨论
解决的问题
正文
- ASDF 旨在作为地震研究中实现的所有各种数据的容器,包括所有必需的元信息。此外,每条数据都应该能够描述自己以及导致它的原因。从长远来看,拥有一个有组织和标准的数据容器将提高地震研究的速度和准确性,并为有效交流研究结果提供媒介。
- 每当需要存储在不同位置、格式和文件中的不同数据时,使工作流运行所需的簿记可能是大量的。ASDF 通过将所有内容存储在同一个文件中明确定义的位置,大大减轻了这种痛苦。