📌

Analyzing large-scale Data Cubes with user-defined algorithms: A cloud-native approach

Classification
数据立方体
数据存储
Type
Journal Article
Magazine
International Journal of Applied Earth Observation and Geoinformation
Author
Xun Chen
Published
May 2, 2022
Rate
⭐⭐⭐
Quick Note
云原生、数据立方体
🦐
摘要
    🐖
    HighLights
    • 使用用户定义的算法分析大型数据立方体,无需重写。
    • 适用于复杂的遥感工作流程。
    • 大规模应用的良好性能。
    🐖
    研究目标
      🐙
      研究内容
        🐬
        研究方法
        1. Spark RDD是基于内存的中间数据载体,是与各种Spark算子构建处理工作流的单元。然而,RDD 并不适合存储遥感数据,因为遥感数据集的数量往往超过内存的容量。DRDD 不是保留 Data Cube,而是描述 Composite Container 的任务,包括 Data Cube 的元数据、处理参数以及容器化算法的元数据,而 Data Cube 实际存储在云存储中。我们使用 DRDD 通过 Spark 运算符分配任务。
        1. Composite Container 被开发用于容器化用户定义的算法,并引入 Data Cube Resilient Distributed Dataset (DRDD) 来管理工作流的任务。
        🐸
        结论
          🐸
          讨论
            🐥
            解决的问题
              🦊
              正文
              1. 使用当前的 RSBD 平台大规模部署用户定义的算法具有挑战性(Mehta 等人,2017 年)。研究人员通常拥有具有特定编程语言或库的复杂遗留算法,这些算法难以在现有的 RSBD 平台上重写和部署。
              1. 然而,如果 Google 地球引擎没有预定义特定的算法(例如深度学习、基于对象的分类)甚至流行的开发库(例如 PyTorch、GDAL),用户通常会发现它们很难部署。因此,研究人员必须使用现有的 API 重写他们的算法,这可能很耗时甚至不可行。
              1. 近年来,容器化的出现,如 Docker ( Merkel, 2014 ),为将用户定义的遥感算法移植到基于云的平台提供了有效的解决方案。作为云原生的核心特性,容器化是一种轻量级的虚拟化技术,它以包(例如 Docker 镜像)的形式交付具有所需执行环境的程序(Abernathey 等人,2021 年)。研究人员将他们的算法封装为 Docker 镜像并在主流平台的独立执行节点上执行,从而大大提高了用户定义算法的可移植性和可重复性(Giuliani et al., 2020 , Knoth and Nüst, 2017 , Rolland et al., 2020)。
              1. 遥感数据集通常是异构的,缺乏用于分析的标准组织。此外,大多数编排系统,例如 Kubernetes ( Bernstein, 2014 ) 和 HTCondor,无法将容器编排成复杂遥感分析的批处理工作流。
              🦊
              使用