📌

地学数据共享发展现状、问题与对策研究

Classification
数据共享
地学大数据
Type
Journal Article
Magazine
其他
Author
诸云强,宋佳
Published
July 26, 2014
Rate
⭐⭐⭐
Quick Note
🦐
摘要
  1. 基于语义的智能数据发现、优化排序与关联推荐,优化数据描述和数据获取两个层面的数据共享质量提高措施,以及发展“数据-模型-计算”一体化共享的科研信息化环境等未来地学数据共享的发展对策。
🐖
HighLights
    🐖
    研究目标
      🐙
      研究内容
      1. 代地球科学(简称“地学”)研究正朝向“地球系统科学”的综合集成研究发展,其研究对象是复杂的非线性巨系统,更加强调圈层间的相互作用、学科间的交叉集成[1-3]。
      1. 随着全球导航定位、遥感遥测技术、深部探测技术、物联网、互联网络等的发展,人类获取地球科学数据的能力得到了极大的提升。全球陆地观测系统(GTOS)、全球气候观测系统(GCOS)、全球海洋观测系统(GOOS)、全球地震监测网(GSN)、全球气溶胶监测网络(AERONET)、全球大气观测网络(GAW)等,为地球科学研究建立起了立体式的全球监测网络。
      1. 国际科学联合会(International Council for Science,ICSU)于1957年成立的世界数据中心(World Data Center,WDC),经过50多年的发展在全球建立了51个数据中心,分布在美国、欧洲、中国、日本和印度等国家和地区。2008年在第29届ICSU大会上WDC正式发展变革为世界数据系统(World Data System,WDS),进一步强调WDS向国际科学联合体和其他利益相关者提供长期的数据访问和数据服务,鼓励各国加强数据和信息工作,把专业的数据服务作为一项国家级的长期科学基础设施来重视和支持[12-13]。
      1. 美国国家航空航天局(NASA)20世纪80年代起就建立了分布式在线数据存档中心和地球观测系统数据信息系统(Earth Observing System Data and Information System,EOSDIS),负责地球观测系统数据的处理、再加工、保存管理和分发服务等[16]。
      1. 20世纪90年代初,美国开始推动国家空间数据基础设施(National Spatial Data Infrastructure,NSDI)的建设,作为NSDI重要的组成部分和电子政务项目之一,2003年开始建立了地理空间一站式共享网络(Geodata.gov)[18],后并入美国开放政府数据网站(Data.gov)[19]。
        1. 2001年开始欧盟启动了欧洲地理空间基础设施(Infrastructure for Spatial Information in Europe,INSPIRE)建设[20]。加拿大、澳大利亚、英国、荷兰、智利、南非、印度等国家都建立了国家空间数据基础设施或数据仓库[21-23]。
      1. 20世纪80年代开始中国科学院主持建设中国科学院科学数据库[24]。1997年成立国家地理空间信息协调委员会,开始推动国家空间信息基础设施的建设[25]。1999年,科技部在科技基础性工作和社会公益性研究专项中,启动了科技基础数据库建设。2002年科技部启动了科学数据共享工程,资源环境、农业、人口与健康、基础与前沿等领域24个部门开展了科学数据共享,包括气象、测绘、地震、水文水资源、农业、林业、海洋、国土资源、地质与矿产、对地观测等行业领域国家科学数据共享中心和地球系统、人口健康、基础科学、先进制造与自动化科学、能源和交通等学科领域的科学数据共享网[26]。2005年开始科学数据共享纳入国家科技基础条件平台。6大类43个科技资源共享平台得到了支撑,包括研究实验基础和大型科学仪器设备共享平台、自然科技资源共享平台、科学数据共享平台、科技文献共享平台、科技成果转化公共服务平台和网络科技环境平台[27-28]。2011年11月,首批23家国家科技平台通过科技部和财政部的认定,正式进入运行服务阶段。首批通过认定的科学数据共享平台包括地球系统科学数据共享平台、气象科学数据共享中心、地震科学数据共享中心、农业科学数据共享中心、林业科学数据平台和人口与健康科学数据共享平台 (http://www.most.gov.cn/tztg/201111/t20111115_90870.htm)。据统计,目前在中国境内运行有实质性数据内容的有84个公益性科学数据资源共享网站[29]。
      1. 地学数据共享存在的问题分析
        1. 在国际组织、各个国家政府部门等的推动下,地学数据共享得到了极大的发展,在支撑地学科技创新和经济社会发展决策中发挥了显著的作用。然而,地学数据共享离“完全开放”的要求、离地学研究者实际的需求,还有很大的差距,这其中有机制、数据、软件技术[30-32]等各方面的问题。
        2. 共享机制问题
          1. 科学数据共享包含5个基本要素:数据资源、共享技术、组织管理、共享规则和发展需求,他们之间存在着相互依赖和相互促进的关系(图1)[33]。
            notion image
            在组织管理要素上,当前科学数据共享主要采用“自上而下”的模式来开展数据共享[34],即主要是依靠国家政府部门的投资,通过建立国家级或部门级平台,依靠平台参建单位来整合集成数据资源或者规定国家投资的科研项目必须进行科学数据的汇交,如当前国家科技基础条件平台数据资源的整合模式、科技部“973计划”资源环境领域项目数据汇交[35],美国国立卫生研究院(National Institutes of Health,NIH)资助的项目数据共享[36]等。尽管国家级或部门级平台也有开放的数据汇交功能,但从现有平台实际执行情况来分析,作为科学数据产生的核心群体“科学家个人用户”很少主动共享科学数据。科学家个人用户是科学数据“一线”使用者和生产者,忽视科学家个人用户的“自上而下”的组织管理模式不利于科学数据共享,难以满足现代数据密集型地学研究的需求。
        3. 数据返现问题
          1. 尽管国内外已经有很多的数据共享系统(网站),但是对用户来说数据发现仍然是一个大问题。主要的原因:一是各大数据共享系统之间缺乏互操作,越来越多的数据共享网站慢慢又形成新的更大的孤岛。用户有时需要到不同的网站去查找数据。
        4. 数据共享质量问题
          1. 数据共享质量包括两个层面:一是网络共享服务的质量,二是数据本身的质量。网络共享服务质量主要指数据描述信息的质量及数据的可获取性及获取的便捷性;数据本身质量主要指数据的科学性、可靠性和时效性。数据描述信息通常利用元数据(对数据资源标识、内容、时空范围、质量等的描述)和数据文档(对数据资源要素字段、产生方式、方法及使用要求等的详细描述)表达,前者的质量直接关系数据搜索的精度以及用户对数据是否符合要求的判断;后者的质量直接关系到用户能否正确使用数据资源。
        5. 动态数据共享问题
          1. 目前的数据共享大多是静态的模式,即数据提供者将已经完成好的数据产品发布到网站上,供用户直接共享访问。当用户想要的数据只是共享数据的一部分,或需要另外一种数据格式、投影方式,以及希望得到基于共享数据再计算的数据产品时,静态数据共享模式还是需要把共享数据先下载下来,然后再进行离线处理,这极大地影响了数据共享的效率和水平,急需通过在线模型计算和工具软件,实现动态的数据共享。
      1. 地学数据共享的发展对策
        1. 志愿数据共享与数据出版
          1. 解决目前地学数据共享机制问题的核心是保障数据贡献者的权益,激励他们志愿将自己的数据共享出来。数据贡献者的权益包括:知识产权、知情权、决策权。
        2. 基于语义的智能数据发现与数据关联
          1. 基于前面的分析,数据发现存在两个层面的问题:一是不同数据共享系统间的孤岛问题,二是同一数据共享系统内数据查不全、查不准的问题。前者需要我们不断完善元数据互操作协议,使之简单化并且能够兼容各类元数据标准。各大数据共享系统遵循统一的元数据互操作协议,开放元数据发现和权限认证接口,进而建立泛在的网络元数据发现和认证联盟。后者需要引入语义本体数据关联等技术,建立基于语义推理的数据发现和相关度排序体系,进而实现地学数据的智能发现。
        3. 完全开放的高质量数据共享
          1. 数据本身的质量受制于数据提供者,从共享的角度,无法改变原有数据的质量,但可以从数据源选择、共享数据质量评审、检查等角度提高共享数据的质量。通过数据质量评级标识和数据使用者反馈,辅助用户直观地了解数据的质量。同时,严格元数据和数据文档的规范化填写,
        4. 在线软件工具与计算模型共享
          1. 克服静态数据共享模式缺陷的方法,就是提供在线的数据浏览、处理、转换、裁剪、计算的模型工具,通过这些模型工具,实现数据格式、投影方式的在线转换,在线数据剪切及动态数据产品计算等,直接提供用户想要的数据产品,而不是原始的数据文件。为了保障在线处理、计算的高效性,还需要有强大计算能力的支持。
            吉姆·格雷提出的现代第四科研范式——数据密集型科研就是利用海量科学数据,通过挖掘分析、模拟预测等方法发现、寻找科学数据背后隐含的科学规律和问题[54]。因此,更多、更强大的数据处理转换、挖掘分析、模拟计算工具软件的研发是第四科研范式发展的必然要求。提供在线的数据处理、转换、分析工具也是国际数据共享系统发展的一个重要方向。
        🐬
        研究方法
          🐸
          结论
            🐥
            解决的问题
              🦊
              正文