摘要
HighLights
研究目标
研究内容
研究方法
结论
讨论
解决的问题
正文
- 这种由技术进步促成的协作过程激发了向科学界和广大公众不断增长的受众公开共享数据、信息和知识的目标。因此,开放科学努力的成功可以通过多种方式来衡量,包括加速科学研究、更广泛的科学素养以及整个过程中增加的多样性。这种开放科学的愿景集中在三个总体维度上:(a) 增加对科学过程和相应知识体系的可及性;(b) 提高研究过程和知识共享的效率;(c) 通过创新的新指标了解和评估科学影响。
- 此外,研究人员可以通过云和更快的网络等技术获得更好、更具成本效益的计算能力、更大量和更实惠的存储。
- 数据量、速度和种类的快速增长破坏了科学家传统的分析工作流程以及处理数据所需的相应数据管理实践。数据量和复杂性的指数增长使科学更加依赖称为网络基础设施的复杂计算平台。网络基础设施,美国国家科学基金会 (NSF) 使用的术语(网络基础设施委员会, 2007 年)),被定义为由计算系统、数据存储系统、先进仪器、数据存储库、可视化环境和人组成的基础设施,所有这些都通过高速网络连接在一起,使学术创新和发现成为可能。
- 这些数据的日益可访问性和可用性为解决跨越领域边界的跨学科科学问题提供了机会。解决这些跨学科问题需要传统上孤立的科学社区之间的合作以及不同类型的专业知识、知识和资源的融合(Chesbrough, 2015 年)。这种对跨学科研究的关注导致了从个人进行研究到团队方法的转变,每个成员都提供专业知识。科学团队经常包括程序员和计算机科学家,以帮助进行分析并优化算法以有效分析大量数据。
- 科学向数据密集型科学发现的转变(Gray, 2009 年)需要新的更好的计算基础设施来支持大规模的科学。de La Beaujardière ( 2019 ) 提出了如何实现“大规模科学”的问题,以便研究人员和其他用户可以使用大型多源数据集。同样,罗宾逊等人。( 2020) 指出需要有利于构建稳健、可扩展和适应性强的数据分析管道的基础设施。
- 需要由具有不同类型专业知识的个人组成的大型协作团队来解决日益复杂和跨学科的科学问题。这些贡献者在科学过程中扮演着许多角色,包括进行实验、整理数据、进行分析、开发软件、验证结果和进行批判性审查(CASRAI, 2020 年)。需要创新的新平台来无缝实现来自执行各种任务的许多地理分布的贡献者的科学协作。这些有效的协作平台需要提供许多关键能力(Bartling & Friesike, 2014 ; Roure et al., 2008) 包括轻松管理研究对象的能力、激励共享这些研究对象的能力、对未来技术变革开放和可扩展的能力、同行评审科学研究对象的能力(Himmelstein 等人, 2019 年),以及支持可操作性的手段研究不仅仅是作为一个对象存储库。许多协作开放科学平台,例如 myExperiment (De Roure et al., 2009 )、JetStream (Jetstream, 2020 ) 和 GeneLab (Berrios et al., 2020 ; NASA, 2020b ),以新颖的方式支持在线合作,同时与科学特定的社交网络,包括 ResearchGate 和 Mendeley (Nentwich & König, 2014),允许研究人员连接和共享期刊文章。
- 在当前的数据系统架构中,大多数数据存档与计算资源是分开的。任何分析都需要将数据移动到用户的机器或某些计算资源。云平台正在迅速成为设计协作基础设施的可行构建块,这些基础设施将数据从组织孤岛中移出,而是将它们与计算并置(de La Beaujardière, 2019 年)。作为一种新的计算范式,云计算提供对计算资源池的可扩展、按需、即付即用的访问。这些云技术使为大规模计算配置数据分析平台变得更容易、更高效、更经济。新的数据系统需要重新构想为云原生并与数据分析平台集成。