🔔

大数据技术简介

信息技术和高性能计算技术的发展,为地球科学研究提供了越来越多的
现代大规模计并行模拟技术在地球科学中也得到了广泛应用
 
并行计算可视化技术,包括数据输入输出节点,处理节点,可视化绘制节点和显示节点,此外还包括存放数据的文件系统。将并行可视化分为以下3个步骤:数据预处理、并行绘制和并行显示
数据的预处理过程是将超级计算机或并行计算机集群产生的海量数据进行各种操作, 如特征值提取、数据转化、同化、压缩、过滤等,以此来减少网络传输和可视化绘制的数据量。
可视化绘制是将几何数据转化成光栅中像素的过程, 绘制过程分为2 个阶段:几何处理和光栅化
可视化的并行实现, 主要有3 种基本的处理方式[ 43] :作业并行( Task Parallelism) 、流水线并行 ( Pipeline Parallelism) 和数据并行( Data Parallelism) .
海量数据可视化面临着另一个问题是如何将处理好的数据以高精度高分辨图像显示出来.在地球 科学数值模拟结果的可视化显示过程中, 也同样面临这样的问题.
地球科学中实际的物理问题的一个显著特点是研究对象都是多尺度特征, 数据规模庞大;既需要整体信息, 还需要局部放大信息。
地震波传播过程模拟的海量数据主要来源于前3 个方面.对地震波的传播过程有关的物理量进行可视化, 对于理解和发掘隐藏在结果中的信 息有着极大的帮助, 特别是体绘制方法的应用, 可以让我们看到激发的地震波在三维空间中的整个传播 过程, 大大提高了结果的真实感.但体绘制方法大大增加了绘制时的计算量[ 57 ~ 59] .
 
大数据是指不同形式的大数据集,需要特殊的计算平台才能发现有价值的知识。大数据彻底改变了人类生活的方方面面以及包括医学、商业、教育和科学与工程在内的许多行业。
尽管大数据为用户提供了很多机会,但为大数据创建高效的软件框架在网络、存储、管理、分析和伦理方面存在许多挑战[5]、[6]。
 
  • Comparison of Spark Resource Managers and Distributed File Systems
 
第一位任务是多源(元)异构时空大数据的融合,时空大数据的多源异构特征也给地图学数据源的处理增加了新的复杂性和困难。这主要表现在来自国内外不同部门、不同行业的时空大数据往往具有多类型、多分辨率(影像)、多时态、多尺度、多参考系、多语义等特点,客观上造成集成应用的时空大数据不一致、不连续的问题十分突出,给地图制图增加了难度,无法快速为国家重大工程和信息化条件下的联合作战提供全球一致、陆海一体、无缝连续的时空大数据服务。因此,如何科学描述、表达和揭示不同类型、不同尺度、不同时间、不同语义和不同参考系统的时空大数据的复杂关系及其相互转换规律,从根本上解决多源异构时空大数据的融合,已成为计算机数字地图制图环境下地图学亟待解决的科学技术问题[23-25]。
notion image
 
 
科学技术的加快,特别是在信息和通信技术(ICT)领域,
 
 
 
在众多科学学科中,TB 级和即将 PB 级的数据集合正在成为关键的社区资源。需要一类新的数据网格基础设施来支持可能成千上万的用户对这些数据集的管理、传输、分布式访问和分析。面临这一挑战的研究人员包括气候建模社区,该社区执行长时间的计算,并经常输出非常大的文件,这些文件必须进一步分析。我们描述了地球系统网格原型,它将高级分析、复制管理、数据传输、请求管理和其他技术结合在一起,以支持复制数据的高性能、交互式分析。我们展示的性能结果展示了我们从用户桌面管理大型数据集的位置和移动的能力。我们报告了在 SC'2000 上通过 SciNET 进行的实验,我们在德克萨斯州和加利福尼亚州之间实现了 1.55Gb/s 的峰值性能和 512.9Mb/s 的持续性能。
 
 
虚拟天文台的应用需要网络实现,即通过门户网站、网络服务以及本地应用程序编程接口 (API) 访问的某种形式的网络浏览器访问。由于这一要求,我们尽可能在使用 Java 的 Web 架构中工作,但也利用对现有服务的接口级访问,这些服务提供对数据、图形表示、现存目录等的访问。