中国矿业大学(北京)
博士研究生学位论文选题报告
论文题目: | 煤矿地学大数据智能湖仓建设
关键技术及应用研究 |
学 院: 地球科学与测绘工程学院姓 名: 耿恒高学 号: BQT2100202023学科专业(领域):地质资源与地质工程研究方向: 地学大数据导 师: 彭苏萍 许娜
研究生院学位办制
2022年 11月 19日
说 明
1.选题报告为A4大小双面打印,于左侧装订成册。
2.选题报告的内容包括以下几个方面:
(1)阐述所选课题的来源、选题依据、在理论和实践上的意义及价值。
(2)该课题的文献综述,须详细阐述国内外有关文献在该研究方向的动态,并将查阅的资料在选题报告中列出。
(3)阐述研究内容,确定技术路线、实施方案及所采用的方法、手段和工作计划。
(4)该课题达到的预期效果和拟解决的问题。
(5)该课题在研究过程中可能遇到的困难、问题以及解决的方法和措施。
(6)估计该课题的工作量和所需经费。
3.博士选题报告字数应控制在5000字左右;硕士选题报告字数应控制在3000字左右。
目 录
1 选题背景、目的及意义
煤炭工业的稳定健康发展与我国可持续发展战略息息相关,《能源技术革命创新行动计划(2016—2030年)》提出,到2030年实现煤炭智能化开采,重点煤矿区基本实现工作面无人化,全国煤矿采煤机械化程度达到95%以上,即煤炭4.0时代[1]。2020年2月,国家发展改革委等八部委联合发布了《关于加快煤矿智能化发展的指导意见》,指明煤矿智能化地质保障的研究方向,将人工智能、工业物联网、云计算、大数据、机器人、智能装备等与现代煤炭开发利用深度融合,实现煤矿生产过程智能化运行,这对于提升我国煤矿安全生产水平、保障煤炭稳定供应具有重要意义[2,3]。
随着新的煤矿地学大数据政策和不断增长的技术能力,越来越多具有多样性和复杂性的数据集合正在以数字方式提供,数据的高效存储管理正逐渐被认为是科学研究的一个重要组成部分。煤矿地学大数据是典型的大数据,除了具有大数据的5个V特点,即海量(Volume)、多样(Variety)、高速(Velocity)、价值密度低(Value)和真实性(Veracity)外[4],还具有多源、异构、多时间、多标准、高维、高度复杂、不稳定和非结构化等独特的属性特征和空间位置特征[5–7]。煤矿智能化开采需要综合理解多个时空尺度的变化规律和相互作用,并且需要多学科、跨领域、多过程、长时间序列科学数据的支持[8]。随着煤矿各类物探传感器和信息技术的飞速发展,数据采集和传输技术得到了很大的提高。
面对如此多源、海量的煤矿地学大数据,如何科学高效地存取、管理、分析与应用已经成为煤炭工业高质量发展亟需解决的科学问题。煤矿智能化发展需要新的数据和数据存储管理思维方式,而智能湖仓可以打通数据仓库和数据湖之间的壁垒,让数据流动起来,减少重复建设,煤矿地学大数据智能湖仓建设关键技术及应用研究已经迫在眉睫。5G通讯、云计算、大数据、人工智能、物联网等技术的发展,为煤矿地学大数据存储、管理、分析及应用提供了一个契机,建设煤矿地学大数据智能湖仓成为可能[9]。煤矿地学大数据智能湖仓建设是煤矿智能化发展过程中最为首要的研究内容之一,是煤矿安全高效开采地质保障系统的数据中心,对煤炭绿色开采、智能精准开采起着关键数据支撑与服务作用。因此,建设具有综合、立体性的煤矿地学大数据智能湖仓,实现海量煤矿地学数据的集成存储、管理、分析和应用,丰富了国内关于煤矿地学大数据存储管理的方法,打破了煤矿多系统对数据格式要求的壁垒,满足煤炭行业对煤矿地学大数据科学高效管理的时代所需,对整合地学数据和共享地学知识,推动地球科学研究范式的变革,建设地球科学一站式存储与处理分析平台具有重要推动意义[10]。
2 国内外研究现状
煤矿地学大数据分析是集地球科学、采矿学、信息科学、计算机科学和数据科学等多学科、多领域交叉融合的应用研究,以系统性和整体性的方法研究煤矿领域地学数据和信息的相关关系,从而服务煤矿智能化建设。煤矿智能化发展需要将大数据、云计算及人工智能等多种技术与专业的地球科学技术紧密结合,为煤矿科学研究带来新活力。煤矿地学大数据智能湖仓可以打通数据仓库和数据湖之间的壁垒,让数据流动起来,减少重复建设,实现海量煤矿地学数据的集成存储、管理、分析和应用。下面将从煤矿地学大数据与智能湖仓两方面的国内外研究现状进行阐述。
2.1 煤矿地学大数据的研究进展
大数据的时代已经到来[11],数据密集型科学是继经验科学、理论科学和计算科学的第四范式[12,13],地球科学是典型的数据密集型科学[14]。2008年,Nature出版大数据专刊[15]。2011年,Science推出大数据处理关键技术的专刊[16]。大数据研究成为各国关注和优先发展的国家战略性技术。作为国家大数据战略的重要组成部分,煤矿地学大数据的应用研究方兴未艾。数据密集型科学范式对现代煤矿地学大数据研究提出了新的挑战,如数据采集、数据存储、数据分析、数据可视化等[17]。和其他大数据一样,煤矿地学大数据需要清洗、处理、分析、保护并提供对不断变化海量数据集的访问[18]。在过去十年或更长时间里,数据量的增长速度超过了我们访问、存储和处理数据的能力[19]。煤矿地学大数据面临着地球科学数据分析带来的挑战,即数据强度、计算强度、程序复杂度[20]。煤矿地学大数据的研究进展主要从以下几个方面进行回顾总结。
2.1.1 煤矿地学大数据采集技术研究进展
地球物理勘探是煤矿开采的重要研究手段,在各种勘探方法中,地震勘探技术最有效的方法之一。20世纪60年代后期,地震勘探从二维(2D)扩展到三维(3D)勘探范围。三维地震勘探具有信息量大、探测数据横向连续性好、采样间距小的特点,特别是在复杂区域克服了二维成像的局限性和不足[21,22]。20世纪90年代初,时移(4D)地震开始发展研究,时移地震是基于重复三维地震勘探的发展和成像过程[23–25]。垂直地震剖面法(Vertical Seismic Profiling, VSP)作为一种井中地震勘探方法,其工作原理是在井口附近的地面激发地震波,井中按一定间距布设检波点接收方法[26]。VSP观测系统的检波器是在井中垂向布置,相比于地面地震观测系统更加接近目的层,可以直接接受来自目的层的反射,从而减少了部分地震信号的干扰,地震信息具有高保真度,高信噪比,高分辨率等优点[27,28],并且可以接收到陡倾角构造信息,在复杂构造成像、岩性勘探、油气开发领域的应用越来越重要[29–31]。分布式光纤声学传感技术(Distributed Acoustic Sensing, DAS)是基于瑞利光散射的一种分布式感测声震信号的方法,通过将光缆连接到询问器单元来获取DAS数据[32,33]。DAS在地震采集中具有成本低、采样率高、耐腐蚀、设备寿命长等优点。DAS已在多种现场应用中进行了测试,包括VSP采集[32,34,35]、水力压裂[36]、微震探测[37]和地震探测[38]等。
电法勘探技术主要包含地质雷达、瞬变电磁法、可控源音频大地电磁法、高密度电法、激发极化法等常用方法[39–41]。地质雷达勘探是基于地下介质的电阻率、介电常数等电性参数的差异,利用高频电磁脉冲波的反射,探测目标体及地质现象的一种物探方法[42,43]。中国矿业大学(北京)煤炭资源与安全开采国家重点实验室专门针对矿井下掘进面,侧帮、顶底板等断层、水害以及破碎带等隐伏灾害源的探测开发的一种新型的地球物理勘探设备——ZTR12矿用本安型防爆地质雷达系统。并开发了低频组合大功率地质雷达,研制出低频组合系列天线,可以由50MHz、25MHz、19MHz和12.5MHz等主频天线组合。天线辐射器经过设计,提高了辐射效果[44]。中国煤炭电法勘探经历了以矿区地面直流电法为主的勘探阶段、以煤矿井下直流电法为主的勘探阶段、以地面和井下瞬变电磁法为主的勘探阶段三个主要阶段[45]。电法勘探的数据采集系统正向多通道、多分量、多方位、分布式的方向发展,在积极开展地面2D/3D电阻率成像系统、地面多通道电磁法勘探系统、矿井多分量瞬变电磁法、矿井矢量电阻率法、地面—巷道、井—地电阻率法与瞬变电磁法的研究,大大提高煤炭电法勘探的探测精度。
地球物理勘探的发展历史充分说明,数据采集精度的提高使地球物理探测的应用效果、应用范围不断扩大,地球物理方法和理论的进展需要数据采集技术的进步作保证才能得以实现。近30年来各种物理场的成像研究取得了很大的进展,包括地震波成像、电磁波成像、位场成像等。成像技术的特点是未知数多、观测数据量大,只有观测信息对每个未知数的覆盖次数足够多,才能使解出的未知数比较可靠。同样,地球物理勘探结果可视化的需求也推动了计算机技术的进步,并且计算机将在今后的地球物理大数据的运算中起主要作用[46]。
2.1.2 煤矿地学大数据存储管理技术研究进展
煤矿地学大数据包括自然地理、地球物理(地震勘探、高密度电法、瞬变电磁、地质雷达、微震、测井)、矿井地质与水文地质等多种类型数据。数据具有多源、异构、多时间、多标准、高维、高度复杂、不稳定和非结构化等独特的属性特征和空间位置特征,例如地震数据格式有SAC、MiniSEED、PH5、ASDF、SEED和SEGY[47],电法勘探采集经纬度与高程的数据格式一般采用Auto CAD图件、Excel文件和surfer文件等存储方式,多种类型的数据格式对数据存储管理方式带来了新的变化。
随着数据存储介质的不断发展,煤矿地学数据存储管理经历了人工管理阶段、文件系统管理阶段、数据库系统管理阶段和分布式文件系统管理阶段。目前,数据库技术和分布式文件系统在地学大数据已经得到应用。最常见的数据库模型主要分为两种,即关系数据库(SQL)[48]和非关系数据库(NoSQL)[49]。主流的关系数据库有MySQL[50]、Microsoft Access[51]、Microsoft SQL Server[52]、IBM DB2[53]、PostgreSQL[54]、Oracle[55]等。非关系数据库有HBase[56]、Cassandra[57]、Redis[58]、MongoDB[59]、Neo4j[60]、InfluxDB[61]等。其中,HBase和Cassandra都是基于Bigtable架构[62],是列式数据库,Redis是基于内存的键值数据库,MongoDB是著名的文档型数据,Neo4j是图数据库,InfluxDB是典型的时序数据库。SQL是存储结构化数据很好的解决方案,煤矿地学大数据中还有大部分数据是以半结构化和非结构化格式存储,结构化搜索机制无法访问,需要自动化技术来识别这些类型的数据,将其导入结构化知识库[63]。NoSQL在半结构化和非结构化数据存储管理具有独特的优势,本人已经参与开展相关研究和工作[64]。
由于煤矿源头应用系统的需求,存在着各种不同的数据库类型,形成了一个个独立的数据中心,阻碍了本地数据的互通,造成了异构数据集成中许多技术难题。为了满足大数据时代对高效存储、访问和分析大量异构数据产生的新需求,分布式文件系统得到了快速发展。例如,Google研究人员发布了文件系统(GFS),GFS是一个高度可扩展且具有一致性的分布式文件系统[65]。随后,又出现Ceph[66]、HDFS[67]、GlusterFS[68]、GridFS[69]等分布式文件系统,其中HDFS使用尤为广泛。
2.1.3 煤矿地学大数据处理分析技术研究进展
煤矿地学大数据对数据处理计算能力的需求越来越高,普通计算机和传统的单机作业已经难以满足数据处理需求。美国能源部将数据密集型功能集成到高性能计算HPC架构中,设计了自定义数据密集型架构来提高海量数据集的处理与分析能力[70]。学术界和工业界的研究人员分别推出了数据密集型分析的开源工具,如TensorFlow[71]、PyTorch[72]、Scikit-Learn[73]。针对大数据还开发了新的可扩展计算模型、平台和技术,如MapReduce[74]、Hadoop[75]、Spark[76]、Flink[77]、Docker[78]和Kubernetes[79]等。其中,MapReduce是由谷歌开发的一个针对大规模群组中的海量数据处理的分布式编程模型,促进了高度可扩展、容错、大规模分布式应用程序的发展[74]。Spark和Flink分别在离线的批处理和实时的流式处理上有着独特的计算优势。Spark计算框架不依赖于将中间结果写入磁盘,而是通过一种更快的内存格式(称为Resilient distributed data set,RDD),减少了迭代运算的磁盘IO,并通过并行计算DAG图的优化,减少了不同任务之间的依赖,降低延迟等待时间来实现快速计算[80]。Flink计算引擎在无界和有界的数据流上进行有状态计算分布式处理,在集群环境中以内存速度和任何规模执行计算[81]。在最新的云栖大会一体化大数据智能峰会上,由开放原子开源基金会、X-lab开放实验室和阿里巴巴开源委员会联合出品的《2022开源大数据热力报告》上Flink摘得流处理领域热力值TOP1[82]。
Yan等(2015)用Spark研究地震数据分布,提取常用的地震数据处理算法模板,并对几种典型的地震处理算法(傅里叶变换、希尔伯特变换和雅可比模板计算)进行性能分析和生产力测试[83]。Yan等(2018)研究了基于MapReduce的叠前地震大数据智能反演方法,利用Gardner公式和算法的遗传运算改进了种群初始化策略,得到的弹性参数与理论模型对测井曲线均有较好的拟合,有效地提高了密度反演精度[84]。地震数据准确性对处理分析结果有直接的影响,数据准确性是指数据质量,包括噪声数据、缺失条目、不确定测量或数据集中的其他不一致性。机器学习可以自动评估地震数据质量[85],执行数据预处理或清理步骤,如地震数据去噪[86]、识别剪切波波形[87]。Mousavi等(2020)使用斯坦福地震数据集[88],在提出的EQTransformer模型中训练了372000个参数用于地震检测和相位选择[89]。对于煤矿种类繁多的数据存储方式和不同的机器初始数据,解析半结构化和非结构化数据,并进行优化存储,可以采用大数据处理分析的理论方法优化解决。
2.2 煤矿地学大数据智能湖仓研究现状
2.2.1 数据仓库研究进展
数据仓库(Data Warehouse,DW)适合存储结构化的数据,可以快速地提供智能分析和决策支撑。Chenoweth(2006)分析了数据仓库成功的七项关键干预措施,即上层管理部门的支持、用户支持、希望访问广泛的数据、获得有限数据的访问和分析工具、了解任务适合性、IT技术的支持以及是否拥有权力使用者[90]。Jukić等(2015)研究了企业信息系统的背景下大数据现象,阐明传统企业数据存储库的大数据定义,并确定了大数据源和技术如何与标准数据仓库实践相适应,增强现有的分析数据并为组织增加价值[91]。Bimonte等(2022)分析了结构化、固定模式下数据多样性的局限性,深入总结并提出了多模式数据管理系统(MMDBMS),该系统可以对异构数据(结构化、半结构化、基于图的数据等)进行原始存储和无缝查询,有效保持数据的多样性,并采用结构化和非模式化数据相结合的方式,保证更好的灵活性、可扩展性和演化性[92]。在地学领域,王永志(2008)深入研究了数据仓库和面向服务架构(SOA)技术,实现地学空间数据集成与应用集成的相关技术[93]。Glorio等人(2010)使用自定义规则建模语言建设空间数据仓库,决策者可以根据自己的需要在概念层面上轻松地访问空间数据,获得正确的空间模式实例,避免在大型复杂的空间数据仓库中进行探索[94]。魏红雨(2014)针对地学空间数据多源异构分布的特点和集成数据质量控制难的实际,采用地学空间数据仓库和数据质量评价控制等关键技术加以研究解决,并对空间数据质量保障及质量评价技术进行改进[95]。Bimonte等(2017)分析了概念设计工具和关系在线分析处理(ROLAP)实施需求,提出了一个用于空间数据仓库的统一建模语言(UML)配置文件,集成了规则的点网格并支持连续性和多分辨率,有效地实现ROLAP架构[96]。Nimmagadda(2021)提出将不同石油系统数据集中一个综合的数据仓库中,在此基础上开展基于本体的数据建模、挖掘、可视化和解释,实现不同石油系统之间数据关联协作,从而最大化的使得勘探者受益[97]。
2.2.2 数据湖研究进展
煤矿开采在地质调查和科学研究中,逐渐积累了多种地质资料,包括地质数据库数据、文字、图像、声音等,在不进行信息提取和处理的情况下,很难从中获取有价值的信息[98]。各种数据源(结构化、半结构化和非结构化)的数据需要灵活地转换和执行复杂的分析,这导致了从经典数据仓库向用于分析的数据湖的转变[99]。数据湖最早是由Dixon在2010年的一篇博客中提出,他指出数据湖可以存储任何格式的数据[100]。Chris(2015)分析了数据湖与数据仓库之间的五大差异,相比于数据仓库,数据湖可以保留所有数据、支持所有数据类型、支持所有用户、容易适应数据变化以及提供更快的洞察力[101]。Nodipalli(2017)提出了亚马逊网络服务(AWS)的数据湖架构有四个区域,即摄取、存储、处理和治理与安全[102]。Ravat(2019)提出数据湖包含原始数据区、过程区、访问区和治理区域四个基本区域[103]。中国学者在地球科学上也相应地开展了数据湖应用研究,李国欣等(2019)通过构建油气藏全生命周期的数据湖和知识库系统平台,基于平台规则甄选地质工程核心数据,认证油气藏勘探开发的核心“金数据”,实现专业数据便捷高效连通和参数交互优化,促进地质工程一体化数据融合,大幅提升数据利用效率与准确性[104]。吴冲龙等(2020)讨论了地质科学大数据统合应用的基本问题,总结出地质科学大数据的最佳存储方式是“数据湖”、最佳载体是“玻璃地球”,最佳云平台架构是微服务架构[105]。杜金虎等(2020)针对各油气田地理位置分布广、业务差异大、个性化需求多、大块数据应用网络带宽不足等问题,研究设计了勘探开发梦想云统一数据湖技术方案,即数据连环湖方案,解决了油田数据统一集中管理和就近访问以及特色和扩展应用之间的矛盾[106]。侯宁(2021)从数据映射和数据服务两个方面出发,研究了油田区域数据湖的核心数据集成技术,提出了基于数据资源目录的油田区域数据湖的数据集成技术、基于数据元关键字的数据模型语义映射技术以及基于应用数据集的数据服务[107]。斯伦贝谢公司利用DELFI认知勘探与开发环境,创新应用数据摄取、数据充实、数据洞察等核心理念与技术,构建数据湖,实现勘探开发数据全连接,采用微服务构建专业PaaS平台,支持上游业务自动化和智能化应用场景[108]。目前主流的数据湖框架有Delta Lake[109,110]、Apache Iceberg[111]、Apache Hudi[112]。
2.2.3 智能湖仓研究进展
智能湖仓又称为湖仓一体(Lakehouse),是建立在数据仓库和数据湖的基础之上的。数据仓库为分析转换和整合数据提供了一个有效的框架,但在处理数据多样性存在不足;数据湖以确保灵活存储原始数据,代价是使分析更加复杂[113]。智能湖仓可以打通数据仓库和数据湖之间的壁垒,让数据流动起来,减少重复建设。Databricks数据科学家Ben等(2020)指出,智能湖仓是在开放格式的低成本云存储之上,直接实现与数据仓库中类似的数据结构和数据管理功能,具有事务支持、模式实施和治理、BI支持、存储和计算分离、开放性、支持各种数据类型、支持各种工作负载以及端到端流媒体等特性[114]。Snowflake是一个原生于云端的智能湖仓,为数据湖实现数据仓库的数据结构和管理功能,具有以下特点:需要更少的管理时间和精力、简化模式和数据治理、减少数据移动和冗余、直接访问分析工具的数据、经济高效的数据存储[115]。Praful等(2021)在亚马逊大数据博客上提出了如何在亚马逊云科技上构建智能湖仓[116]。Armbrust等(2021)将智能湖仓定义为一种低成本且可直接访问的数据管理系统,它提供了传统的关系数据管理系统性能特性,例如ACID事务、数据版本控制、审计、索引、缓存和查询优化等,结合了可接入多种系统的数据湖和具有强大管理和优化能力的数据仓库优势[117]。Alexander等(2022)在Databricks框架基础上开发了用于智能湖仓环境的矢量查询引擎Photon,在SQL工作负载上的表现优于现有数据仓库,并支持Apache Spark API[118]。Errami等(2022)分析了当前存储海量空间数据方法的局限性,阐述了智能湖仓以及它如何应对大数据的存储、处理和利用问题,同时确保数据仓库的一致性和效率,通过创建Geohash索引对空间大数据进行分区存储,实现了空间大数据智能湖仓存储实践[119]。
2.3 当前研究现状总结
煤矿地学数据研究已经进入了一个新的大数据时代,现阶段煤矿地学数据已经超出了现有基础设施的数据访问、归档、分析和挖掘能力。回顾上述文献研究现状,结合煤矿智能化发展的时代所需,综合分析现有的研究成果,得出煤矿地学大数据智能湖仓建设具有以下三点研究基础:
(1)数据存储管理技术已经得到了稳定发展,数据库、数据仓库、数据湖等技术在地学领域应用广泛,已经取得了一定的研究成果。
(2)大数据技术发展迅速,出现了许多优秀的平台建设框架;云计算的普及使得搭建混合云存储成为可能,这为煤矿地学大数据智能湖仓建设提供了计算支撑。
(3)各单位已经开展了数据中心以及相关系统研究,为煤矿智能湖仓建设提供借鉴、参考及理论依据。
当前研究的存储管理方案也存在以下几点问题与不足:
(1)用于捕获和管理煤矿地学大数据的流程、策略和工具目前还处于早期开发和重用阶段,很少受到关注。煤矿地学大数据数据采集、处理、分析与应用的工作流集成研究不足以满足当前数据量的需求。
(2)煤矿地学大数据存在多样性的挑战,不同数据仓库、数据湖之间缺乏联系,存在数据孤岛现象。现有的煤矿系统之间缺乏紧密协作,大量煤矿地学数据和产品还不允许开放访问,煤矿地学大数据可用和管理缺乏连贯性,即使共享数据,也缺乏重用所需的元数据、专业知识、技术和基础架构,不是真正意义上的数据共享。
(3)由于煤矿地学大数据格式的异构性,数据集成技术在数据交换时,对数据存在不同的描述方式以及不同数据项之间数据映射研究不足,需要研究自动的方式匹配库中不同数据模型之间数据项的关系。
基于以上研究现状,总结出开展煤矿地学大数据智能湖仓建设关键技术及应用研究迫在眉睫。现有的大数据技术可以煤矿地学大数据智能湖仓建设提供技术支撑,地学相关领域的数据库、数据仓库以及数据湖的研究成果为煤矿地学大数据智能湖仓建设提供理论依据,现有的初步智能湖仓研究为煤矿地学大数据智能湖仓提供了建设思路。因此,现阶段开展煤矿地学大数据智能湖仓建设,是提高对煤矿地学数据智能化存储管理与综合认识的关键策略,为煤矿智能化发展提供全方位数据支撑与应用服务保障的必要研究内容。
3 研究目标与内容
3.1 研究目标
煤矿绿色与精准开采正在进入一个新时代,新的大数据实验和算法推动我们对煤矿地学大数据的深入理解。为了应对煤矿地学数据发展的时代所需,提出了煤矿地学大数据智能湖仓建设关键技术及应用研究,采用大数据、云计算和人工智能等相关技术,结合煤矿地学数据采集、处理与分析技术,建设煤矿地学大数据智能湖仓作为煤矿智能化发展的数据中心,实现海量、多源、异构数据的科学、规范及高效地存储、管理、分析与应用,实现“将用户带到数据,而不是数据给用户”大数据管理理念,为实现煤矿智能开采、绿色开采提供数据支撑与服务。
3.2 研究内容
煤矿地学大数据采集、存储、管理、分析与应用是煤矿智能化发展的重要研究内容,传统的管理方式已经难以满足当今煤矿地学大数据存储管理的时代需求。这些变化正在刺激支持多尺度抽样、数据存储库和数据集成的信息基础设施的发展。为了满足科学家收集数据和其他人重复使用数据不断变化的期望,制定不同专业人员的协作策略,煤矿地学大数据智能湖仓建设研究内容包括以下几个方面:
(1)煤矿地学大数据元数据组织模型研究
研究分布式RDBMS、NOSQL DBMS、RDF的元数据存储策略,结合煤矿地学数据治理、集成和转换方面的专业知识,提炼出煤矿地学大数据智能湖仓的元数据组织模型,建立模型之间的映射关系,实现数据资源目录模型与区域数据湖模型的集成,最终实现煤矿地学大数据一体化存储。
(2)煤矿地学大数据专题数据库建设研究
根据煤矿地学大数据研究的实际生产需求以及相关科学研究数据需求,建立具有特色的专题数据库。按学科分类建设各专题数据库,研究不同的数据可追溯性方法。针对不同的数据来源,按照可查找性、可访问性、互操作性和重用性数据原则,即FAIR原则,对煤矿地学数据进行整理,实现煤矿地学数据多源异构数据智能入库,形成成果数据体。
(3)煤矿地学大数据专题应用服务集成研究
在煤矿地学大数据智能湖仓的基础上,开发具有在线事务处理(OLTP)、在线分析处理(OLAP)、数据挖掘、数据统计、多源数据融合、算法集成及相关工作流等特色专题系统。实现煤矿地学大数据存储、计算一体化,完成数据分析、信息融合、知识挖掘、智慧决策的转换,为煤矿智能化开采提供应用服务。
4 研究方法与技术路线
4.1 研究方法
4.1.1 基于大数据技术搭建煤矿智能湖仓
为了存储管理海量的煤矿地学大数据,采用大数据技术搭建煤矿智能湖仓。在充分比较了当前数据库、数据仓库、数据湖与智能湖仓技术基础上(见表4.1),根据煤矿智慧平台实际需求,最终选择煤矿智能湖仓作为煤矿地学大数据智慧平台数据存储管理的解决方案。煤矿地学大数据智能湖仓选用大数据存储技术HDFS作为底层数据存储源,初步选择采用Iceberg框架实现湖仓的搭建,形成煤矿地学大数据的分布式存储集群。基于数据元描述数据模型的语义,建立模型之间的映射关系。采用ETL技术,对煤矿地学数据进行整理。
表4.1 数据仓库、数据湖与智能湖仓对比
Table 4.1 Data Warehouse, Data Lake and Lakehouse Comparison
名称 | 数据仓库 | 数据湖 | 智能湖仓 |
数据格式 | 专有格式 | 开放格式 | 开放格式 |
数据类型 | 结构化数据 | 所有数据类型 | 所有数据类型 |
数据访问 | SQL | Open API | Open API |
可靠性 | 高质量 | 低质量 | 高质量 |
治理与安全 | 字段级细颗粒度安全和治理 | 弱 | 字段级细颗粒度安全和治理 |
性能 | 高 | 低 | 高 |
扩展性 | 高扩展
成本高 | 高扩展
成本低 | 高扩展
成本低 |
用户场景支持 | BI、SQL应用程序决策支持 | 机器学习 | BI、SQL应用程序决策支持 |
4.1.2 基于云计算实现煤矿地学大数据算法集成
煤矿地学大数据部分数据处理分析需要高性能计算机和计算集群,需要开发计算量大新的处理程序。云计算可以将煤矿地学大数据中巨大的数据计算处理分解成无数的小程序机型处理分析,在云计算的工作流中数据永久存储在智能湖仓云服务器上,用户根据具体情况进行访问。煤矿智能湖仓云服务将采用混合云的方式部署,对煤矿地学大数据并行计算进行算法集成,使用Hadoop搭建底层计算框架,实现MapReduce计算,在此基础上搭建Spark计算框架。采用Spark、Flink计算框架分别实现批数据和流数据处理,在此基础上开展专项研究的算法库编写,部分算法拟采用TensorFlow、PyTorch框架实现相关深度学习应用。
4.1.3 基于Web技术实现煤矿地学大数据应用服务
煤矿地学大数据系统采用Web云原生技术进行系统编排和部署。云原生技术使组织能够在新式动态环境(如公有云、私有云和混合云)中构建和运行可缩放的应用程序,系统采用Web开发的前后端分离B/S架构进行门户和页面功能的实现,前端主要采用Vue.js、Element Plus、Bootstrap、CesiumJS等技术,后端采用Django、SpringBoot等框架技术,任务编排采用Docker、Kubernetes技术实现,网络端采取Tomcat、Nginx技术实现网络负载均衡。实现煤矿地学大数据应用服务,以一个智能湖仓为数据中心,多个模块化子系统建设一站式服务云门户,通过一站式访问轻松使用各种资源和在线数据处理。
4.2 技术路线
围绕煤矿地学大数据智能湖仓建设展开,根据上文研究目标、研究内容与研究方法,制定如图4.1所示的技术路线图,并初步选用相关大数据技术搭建如图4.2所示的智能湖仓架构。
图4.1 技术路线图
Fig. 4.1 Technology Roadmap
图4.2 智能湖仓架构图(黄色虚线为选型技术)
Fig. 4.2 Lakehouse architecture diagram (The orange dotted line is the selection technique)
5 可能的创新点和难点
5.1 可能的创新点
煤矿地学大数据智能湖仓建设可能的创新点有如下几点:
- 提出了涵盖煤矿地学领域数据的全方位集成与应用框架,并首次完整的建立煤矿地学大数据智能湖仓,初步实现了煤矿地学大数据ETL工具。
- 建立了煤矿地学大数据元数据组织模型,制定了煤矿地学大数据存储规范,实现了煤矿地学大数据高效存储与科学管理。
- 基于煤矿地学大数据智能湖仓实现煤矿地学大数据多源数据融合、算法集成,实现煤矿地学大数据专题应用服务。
5.2 可能的难点
目前的大数据建设技术在煤矿智能化建设还处于起步阶段,相关技术在煤矿智能湖仓中的应用还不够成熟,可能会面临一定的挑战和困难。煤矿智能化建设是一个长期推进建设项目,智能湖仓建设应对多系统集成需求不断进行调整和完善。在煤矿智能湖仓的建设过程中,需要与不同的研究人员和专家进行研讨,对于多系统的集成有针对进行调整建设。总结煤矿地学大数据智能湖仓建设可能面临以下难点:
- 难于建立学科的元数据模型。由于不同时期、采用不同数据库技术、不同模型建立之间存在结构不同,将多个数据源的数据库中集成到湖仓中,需要根据不同学科进行元数据描述。
- ETL工作量大,难于保障数据质量。煤矿地学数据在存入数据湖仓后,需要及时进行数据提取、清洗、转换。因多维性、多义性,数据量巨大,任务量大。
- 煤矿地学大数据应用服务集成需要对不同的系统进行API接口适配,对专题系统的数据处理请求进行大量测试,提供数据服务保障。
6 预计工作量和时间进度安排
表6.1 预计工作量和时间进度表
Table 6.1 Estimated workload and time schedule
阶段 | 时间 | 内容 |
文献调研 | 2021.09~2022.02 | 查阅国内外相关文献,研究煤矿大数据存储、管理、分析与应用现状,找到论文切入点 |
技术选型 | 2022.03~2022.08 | 分析大数据技术在煤矿领域的应用,选取合适的框架进行研究,初步制定煤矿智能湖仓建设框架 |
项目设计 | 2022.09~2022.12 | 收集煤矿地质资料,进行深入调研,分析各类型数据以及项目需求,进行系统开发方案设计 |
系统开发 | 2023.01~2023.06 | 根据指定的建设方案,进行平台集群搭建,系统开发、元数据组织模型设计以及算法编写 |
阶段验收 | 2023.07~2023.12 | 阶段验收,对系统进行相关测试,分析并解决潜在的问题 |
阶段验收 | 2024.01~2024.06 | 阶段验收,针对讨论的问题进一步完善并且开发新的模块 |
系统发布 | 2024.09~2024.12 | 平台发布、系统最终验收,评估开发性能,完成后续开发交接,总结系统,将来进一步发展提案 |
撰写论文 | 2025.01~2025.05 | 平台成果验收,完成博士学位论文答辩 |
7 经费预算
本研究经费预算如表7.1所示。
表7.1 预计工作量和时间进度表
Table 7.1 Estimated workload and time schedule
费用明细 | 经费额度(元) |
资料费 | 2000 |
材料费 | 10000 |
差旅费 | 8000 |
出版/文献/信息传播/知识产权事务费 | 10000 |
高性能计算机 | 60000 |
云服务器 | 10000 |
合计 | 100000 |
参考文献
[1] 国家发展改革委. 能源技术革命创新行动计划(2016-2030年)[R/OL]. (2016-06-01)[2022-09-28]. http://www.gov.cn/xinwen/2016-06/01/5078628/files/d30fbe1ca23e45f3a8de7e6c563c9ec6.pdf.
[2] 国家发展改革委. 关于印发《关于加快煤矿智能化发展的指导意见》的通知[EB/OL]. (2020-02-25)[2022-10-04]. http://www.gov.cn/zhengce/zhengceku/2020-03/05/content_5487081.htm.
[3] 彭苏萍. 我国煤矿安全高效开采地质保障系统研究现状及展望[J]. 煤炭学报, 2020, 45(7):2331–2345.
[4] L’heureux A, Grolinger K, Elyamany H F, et al. Machine learning with big data: Challenges and approaches[J]. Ieee Access, 2017, 5:7776–7797.
[5] Guo H. Big Earth data: A new frontier in Earth and information sciences[J]. Big Earth Data, 2017, 1(1-2):4–20.
[6] Merritt P, Bi H, Davis B, et al. Big Earth Data: a comprehensive analysis of visualization analytics issues[J]. Big Earth Data, 2018, 2(4):321–350.
[7] 翟明国, 杨树锋, 陈宁华, 等. 大数据时代:地质学的挑战与机遇[J]. 中国科学院院刊, 2018, 33(8):825–831.
[8] 张耀南, 艾鸣浩, 康建芳, 等. 地学大数据处理架构与关键技术研究[J]. 数据与计算发展前沿, 2020, 2(2):91–100.
[9] Pal A, Kumar P, Shah F. Seismic Data Management for Big Data Era[C] //. OnePetro, 2019.
[10] 周成虎. 深时数字地球研究展望[EB/OL]. (2022-09-17)[2022-09-24]. https://www.koushare.com/video/videodetail/34161.
[11] Manyika J, Chui M, Brown B, et al. Big data: The next frontier for innovation, competition, and productivity[M]. McKinsey Global Institute, 2011.
[12] Bell G, Hey T, Szalay A. Beyond the data deluge[J]. Science, 2009, 323(5919):1297–1298.
[13] Hey A J G, Tansley S, Tolle K M, et al. The fourth paradigm: data-intensive scientific discovery[M]. Microsoft research Redmond, WA, 2009.
[14] Guo H, Wang L, Chen F, et al. Scientific big data and Digital Earth[J]. CHINESE SCIENCE BULLETIN, 2014, 59(35):5066–5073.
[15] Nature. Big data[EB/OL]. (2008)[2022-09-24]. http://www.nature.com/news/specials/bigdata/index.html.
[16] Science. Special Online Collection: Dealing with Data[EB/OL]. (2011)[2022-09-24]. http://www.sciencemag.org/site/special/data/.
[17] C.L. Philip Chen, Chun-Yang Zhang. Data-intensive applications, challenges, techniques and technologies: A survey on Big Data[J]. Information Sciences, 2014, 275:314–347.
[18] Oussous A, Benjelloun F-Z, Ait Lahcen A, et al. Big Data technologies: A survey[J]. Journal of King Saud University - Computer and Information Sciences, 2018, 30(4):431–448.
[19] Quinteros J, Carter J A, Schaeffer J, et al. Exploring Approaches for Large Data in Seismology: User and Data Repository Perspectives[J]. Seismological Research Letters, 2021, 92(3):1531–1540.
[20] Li Z, Yang C, Jin B, et al. Enabling big geoscience data analytics with a cloud-based, MapReduce-enabled and service-oriented workflow framework[J]. PloS one, 2015, 10(3):e0116781.
[21] Arrowsmith S J, Trugman D T, MacCarthy J, et al. Big Data Seismology[J]. Reviews of Geophysics, 2022, 60(2):e2021RG000769.
[22] 彭苏萍, 卢勇旭. 煤与瓦斯突出灾害隐患高分辨三维地震预测方法[J]. 煤矿安全, 2020, 51(10):34–38.
[23] Lumley D. 4D seismic monitoring of CO 2 sequestration[J]. The Leading Edge, 2010, 29(2):150–155.
[24] Lumley D, Landrø M, Vasconcelos I, et al. Advances in time-lapse geophysics—Introduction. Society of Exploration GeophysicistsGeophysics:2, 2015. WAi‐WAii.
[25] Lumley D E. Time-lapse seismic reservoir monitoring[J]. Geophysics, 2001, 66(1):50–53.
[26] 朱光明. 垂直地震剖面法[J]. 石油地球物理勘探, 1980, 15(S2):1–23.
[27] 蔡晓慧, 刘洋, 王建民, 等. 基于自适应优化有限差分方法的全波 VSP 逆时偏移[J]. 地球物理学报, 2015, 58(9):3317–3334.
[28] 王维红, 刘诗竹, 裴江云, 等. 大庆油田 M1 井 3D VSP 成像方法与应用[J]. 地球物理学进展, 2015(1):171–177.
[29] 赵邦六, 董世泰, 曾忠. 井中地震技术的昨天, 今天和明天——井中地震技术发展及应用展望[J]. 石油地球物理勘探, 2017, 52(5):1112–1123.
[30] 梁上林, 徐基祥, 孙夕平, 等. VSP 地震干涉测量的稳相分析与高陡构造成像[J]. 地球物理学进展, 2017, 32(1):198–204.
[31] 王冲, 蔡志东, 刘聪伟, 等. 库车坳陷高陡构造地区零井源距 VSP 资料波场分析与识别[J]. 地球物理学进展, 2018, 33(4):1596–1602.
[32] Daley T M, Freifeld B M, Ajo-Franklin J, et al. Field testing of fiber-optic distributed acoustic sensing (DAS) for subsurface seismic monitoring[J]. The Leading Edge, 2013, 32(6):699–706.
[33] Parker T, Shatalin S, Farhadiroushan M. Distributed Acoustic Sensing – a new tool for seismic applications[J]. First Break, 2014, 32(2).
[34] Miller D, Parker T, Kashikar S, et al. Vertical seismic profiling using a fibre-optic cable as a distributed acoustic sensor[C] // European Association of Geoscientists & Engineers. 74th EAGE Conference and Exhibition incorporating EUROPEC 2012, 2012: cp‐293.
[35] Willis M E, Barfoot D, Ellmauthaler A, et al. Quantitative quality of distributed acoustic sensing vertical seismic profile data[J]. The Leading Edge, 2016, 35(7):605–609.
[36] Bakku S K, Wills P, Fehler M, et al. Vertical seismic profiling using distributed acoustic sensing in a hydrofrac treatment well[C] // OnePetro. 2014 SEG Annual Meeting, 2014.
[37] Webster P, Wall J, Perkins C, et al. Micro-seismic detection using distributed acoustic sensing[M] //. SEG Technical Program Expanded Abstracts 2013. Society of Exploration Geophysicists, 2013: 2459–2463.
[38] Lindsey N J, Martin E R, Dreger D S, et al. Fiber-optic network observations of earthquake wavefields[J]. Geophysical Research Letters, 2017, 44(23):11–792.
[39] 何继善. 电法勘探的发展和展望[J]. 地球物理学报, 1997(S1):308–316.
[40] 朱国维, 邸兵叶, 马文波, 等. 深部矿井工作面地质条件及其地球物理勘探技术[J]. 煤炭工程, 2008(3):66–68.
[41] 程久龙, 李飞, 彭苏萍, 等. 矿井巷道地球物理方法超前探测研究进展与展望[J]. 煤炭学报, 2014, 39(8):1742–1750.
[42] Jol H M. Ground penetrating radar theory and applications[M]. Elsevier, 2008.
[43] 杨峰, 彭苏萍. 地质雷达探测原理与方法研究[M]. 科学出版社, 2010.
[44] 许献磊, 杨峰, 夏云海, 等. 矿井超深探测地质雷达天线的开发及应用[J]. 煤炭科学技术, 2016, 44(4):124–129.
[45] 岳建华, 薛国强. 中国煤炭电法勘探36年发展回顾[J]. 地球物理学进展, 2016, 31(4):1716–1724.
[46] 袁桂琴, 熊盛青, 孟庆敏, 等. 地球物理勘查技术与应用研究[J]. 地质学报, 2011, 85(11):1744–1805.
[47] Bormann P. New Manual of Seismological Observatory Practice (NMSOP-2)[R/OL].IASPEI, GFZ German Research Centre for Geosciences (2012)[2022-10-26]. http://nmsop.gfz-potsdam.de/.
[48] Codd E F. Relational database: a practical foundation for productivity[M] //. ACM Turing award lectures. New York: ACM, 2007: 1981. DOI: 10.1145/1283920.1283937.
[49] Jing Han, Haihong E, Guan Le, et al. Survey on NoSQL database[C] //. 2011 6th International Conference on Pervasive Computing and Applications, 2011: 363–366.
[50] ORACLE. MySQL Documentation[EB/OL]. [2022-11-02]. https://dev.mysql.com/doc/.
[51] Microsoft. Access help & learning[EB/OL]. [2022-11-02]. https://support.microsoft.com/en-us/access?ui=en-us&rs=en-us&ad=us.
[52] Gorman K, Hirt A, Noderer D, et al. Introducing Microsoft SQL Server 2019: Reliability, scalability, and security both on premises and in the cloud[M]. Packt Publishing Ltd, 2020.
[53] IBM. DB2 Version 9.7 for Linux, UNIX, and Windows English manuals[EB/OL]. [2022-11-02]. https://www.ibm.com/support/pages/db2-version-97-linux-unix-and-windows-english-manuals.
[54] The PostgreSQL Global Development Group. PostgreSQL 15.0 Documentation[EB/OL]. [2022-11-02]. https://www.postgresql.org/docs/current/.
[55] ORACLE. Oracle Database Documentation[EB/OL]. [2022-11-02]. https://docs.oracle.com/en/database/oracle/oracle-database/index.html.
[56] George L. HBase: the definitive guide: random access to your planet-size data[M]. O’Reilly Media, Inc, 2011.
[57] Lakshman A, Malik P. Cassandra: a decentralized structured storage system[J]. ACM SIGOPS Operating Systems Review, 2010, 44(2):35–40.
[58] Macedo T, Oliveira F. Redis cookbook: Practical techniques for fast data manipulation[M]. O’Reilly Media, Inc, 2011.
[59] Bradshaw S, Brazil E, Chodorow K. MongoDB: the definitive guide: powerful and scalable data storage[M]. O’Reilly Media, 2019.
[60] Miller J J. Graph database applications and concepts with Neo4j[C] //. Proceedings of the southern association for information systems conference, Atlanta, GA, USA, 2013.
[61] Naqvi S N Z, Yfantidou S, Zimányi E. Time series databases and influxdb[J]. Studienarbeit, Université Libre de Bruxelles, 2017, 12.
[62] Chang F, Dean J, Ghemawat S, et al. Bigtable: A distributed storage system for structured data[J]. ACM Transactions on Computer Systems (TOCS), 2008, 26(2):1–26.
[63] Gil Y, Pierce S A, Babaie H, et al. Intelligent systems for geosciences: an essential research agenda[J]. Communications of the ACM, 2018, 62(1):76–84.
[64] 许娜, 耿恒高, 徐传鹏, 等. 基于MongoDB的地震勘探数据管理系统的设计与实现[J]. 实验室研究与探索, 2022, 41(2):251–260.
[65] Ghemawat S, Gobioff H, Leung S-T. The Google file system[C] //. Proceedings of the nineteenth ACM symposium on Operating systems principles, 2003: 29–43.
[66] Weil S A, Brandt S A, Miller E L, et al. Ceph: A scalable, high-performance distributed file system[C] //. Proceedings of the 7th symposium on Operating systems design and implementation, 2006: 307–320.
[67] Shvachko K, Kuang H, Radia S, et al. The hadoop distributed file system[C] // IEEE. 2010 IEEE 26th symposium on mass storage systems and technologies (MSST), 2010: 1–10.
[68] Davies A, Orsaria A. Scale out with GlusterFS[J]. Linux Journal, 2013, 2013(235):1.
[69] GridFS[EB/OL]. [2022-11-01]. https://www.mongodb.com/docs/manual/core/gridfs/.
[70] Ahrens J, Hendrickson B, Long G, et al. Data-intensive science in the US DOE: case studies and future challenges[J]. Computing in Science & Engineering, 2011, 13(6):14–24.
[71] Martin Abadi, Paul Barham, Jianmin Chen, et al. {TensorFlow}: A System for {Large-Scale} Machine Learning[C] //, 2016: 265–283.
[72] Paszke A, Gross S, Massa F, et al. Pytorch: An imperative style, high-performance deep learning library[J]. Advances in neural information processing systems, 2019, 32.
[73] Pedregosa F, Varoquaux G, Gramfort A, et al. Scikit-learn: Machine learning in Python[J]. the Journal of machine Learning research, 2011, 12:2825–2830.
[74] Dean J, Ghemawat S. MapReduce: simplified data processing on large clusters[J]. Communications of the ACM, 2008, 51(1):107–113.
[75] Apache Software Foundation. Apache Hadoop[J]. 2011.
[76] Zaharia M, Xin R S, Wendell P, et al. Apache spark: a unified engine for big data processing[J]. Communications of the ACM, 2016, 59(11):56–65.
[77] Carbone P, Katsifodimos A, Ewen S, et al. Apache flink: Stream and batch processing in a single engine[J]. Bulletin of the IEEE Computer Society Technical Committee on Data Engineering, 2015, 36(4).
[78] Merkel D, others. Docker: lightweight linux containers for consistent development and deployment[J]. Linux j, 2014, 239(2):2.
[79] Hightower K, Burns B, Beda J. Kubernetes: Up and Running Dive into the Future of Infrastructure. OReilly Media[J]. Inc., Sebastopol, 2017.
[80] Zaharia M, Chowdhury M, Franklin M J, et al. Spark: Cluster computing with working sets[C] //. 2nd USENIX Workshop on Hot Topics in Cloud Computing (HotCloud 10), 2010.
[81] Proceedings of the VLDB Endowment. State management in Apache Flink®: consistent stateful distributed stream processing: Proceedings of the VLDB Endowment: Vol 10, No 12[EB/OL]. (2022/11/3)[2022-11-03].
[82] 开放原子开源基金会;X-lab开放实验室, 阿里巴巴开源委员会. 2022年开源大数据热力报告[EB/OL]. (2022-11-04)[2022-11-08]. https://developer.aliyun.com/ebook/7816?spm=a2c6h.26392470.ebook-read.7.6d7623b3IBWD2r.
[83] Yan Y, Huang L, Yi L. Is apache spark scalable to seismic data analytics and computations?[C] // IEEE. 2015 IEEE International Conference on Big Data (Big Data), 2015: 2036–2045.
[84] Yan X, Zhu Z, Wu Q. Intelligent inversion method for pre-stack seismic big data based on MapReduce[J]. Computers & Geosciences, 2018, 110:81–89.
[85] Jiang W, Zhang J, Bell L. 3D seismic geometry quality control and corrections by applying machine learning3D seismic geometry QC and corrections[J]. Geophysics, 2019, 84(6):P87‐P96.
[86] Zhu W, Mousavi S M, Beroza G C. Seismic Signal Denoising and Decomposition Using Deep Neural Networks[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(11):9476–9488.
[87] Wang S, Zhang J. Automatic Detection of Amplitude-Distorted Samples from Clipped Seismic Waveforms[J]. Seismological Research Letters, 2020, 91(6):3563–3573.
[88] Mousavi S M, Sheng Y, Zhu W, et al. STanford EArthquake Dataset (STEAD): A Global Data Set of Seismic Signals for AI[J]. Ieee Access, 2019, 7:179464–179476.
[89] Mousavi S M, Ellsworth W L, Zhu W, et al. Earthquake transformer-an attentive deep-learning model for simultaneous earthquake detection and phase picking[J]. Nature Communications, 2020, 11(1):3952.
[90] Chenoweth T, Corral K, Demirkan H. Seven key interventions for data warehouse success[J]. Commun. ACM, 2006, 49(1):114–119.
[91] Jukić N, Sharma A, Nestorov S, et al. Augmenting Data Warehouses with Big Data[J]. Information Systems Management, 2015, 32(3):200–209.
[92] Bimonte S, Gallinucci E, Marcel P, et al. Data variety, come as you are in multi-model data warehouses[J]. Information Systems, 2022, 104:101734.
[93] 王永志. 基于数据仓库和SOA的地学数据集成与应用的关键技术研究[D]. 吉林大学, 2008.
[94] Glorio O, Mazón J-N, Garrigós I, et al. Using web-based personalization on spatial data warehouses[C] //. Proceedings of the 2010 EDBT/ICDT Workshops, 2010: 1–8.
[95] 魏红雨. 基于4G地学空间数据集成关键技术研究[D]. 吉林大学, 2014.
[96] Bimonte S, Zaamoune M, Beaune P. Conceptual design and implementation of spatial data warehouses integrating regular grids of points[J]. INTERNATIONAL JOURNAL OF DIGITAL EARTH, 2017, 10(9):901–922.
[97] Nimmagadda S, Ochan A, Mani N, et al. Big Data guided Digital Petroleum Ecosystems for Visual Analytics and Knowledge Management[J]. 2021.
[98] Wang B, Wu L, Xie Z, et al. Understanding geological reports based on knowledge graphs using a deep learning approach[J]. Computers & Geosciences, 2022, 168:105229.
[99] Abadi D, Ailamaki A, Andersen D, et al. The Seattle Report on Database Research[J]. ACM SIGMOD Record, 2020, 48(4):44–53.
[100] Dixon J. Pentaho, Hadoop, and Data Lakes[EB/OL]. (2010-10-14)[2022-10-15]. https://jamesdixon.wordpress.com/2010/10/14/pentaho-hadoop-and-data-lakes/.
[101] Chris C. Top five differences between data lakes and data warehouses[EB/OL]. (2015-01-25)[2022-10-27]. https://www.bluegranite.com/blog/bid/402596/top-five-differences-between-data-lakes-and-data-warehouses.
[102] Nadipalli R. Effective business intelligence with QuickSight[M]. Birmingham, UK: Packt Publishing, 2017.
[103] Ravat F, Zhao Y. Data lakes: Trends and perspectives[C] // Springer. International Conference on Database and Expert Systems Applications, 2019: 304–313.
[104] 李国欣, 王峰, 皮学军, 等. 非常规油气藏地质工程一体化数据优化应用的思考与建议[J]. 中国石油勘探, 2019, 24(2):147–152.
[105] 吴冲龙, 刘刚, 周琦, 等. 地质科学大数据统合应用的基本问题[J]. 地质科技通报, 2020, 39(4):1–11.
[106] 杜金虎, 时付更, 张仲宏, 等. 中国石油勘探开发梦想云研究与实践[J]. 中国石油勘探, 2020, 25(1):58–66.
[107] 侯宁. 油田区域数据湖的数据集成技术研究[D]. 东北石油大学, 2021.
[108] Schlumberger. DELFI Cognitive E&P Environment[EB/OL]. [2022-11-13]. https://www.software.slb.com/delfi.
[109] Armbrust M, Ghodsi A, Xin R, et al. Lakehouse: a new generation of open platforms that unify data warehousing and advanced analytics[C] //. Proceedings of CIDR, 2021.
[110] Delta Lake. Welcome to the Delta Lake documentation[EB/OL]. (2022-11-01)[2022-11-02]. https://docs.delta.io/latest/index.html.
[111] Apache Iceberg. Documentation[EB/OL]. [2022-11-02]. https://iceberg.apache.org/docs/latest/.
[112] Apache Hudi. Overview[EB/OL]. [2022-11-02]. https://hudi.apache.org/docs/overview.
[113] Oreščanin D, Hlupić T. Data Lakehouse-a Novel Step in Analytics Architecture[C] // IEEE. 2021 44th International Convention on Information, Communication and Electronic Technology (MIPRO): 1242–1246.
[114] Ben L, Michael A, Reynold X, et al. What Is a Lakehouse?[EB/OL]. (2020-01-30)[2022-10-19]. https://www.databricks.com/blog/2020/01/30/what-is-a-data-lakehouse.html.
[115] Snowflake. WHAT IS A DATA LAKEHOUSE?[EB/OL]. [2022-10-19]. https://www.snowflake.com/guides/what-data-lakehouse.
[116] Praful K, Changbin G. Build a Lake House Architecture on AWS[EB/OL]. (2021-04-28)[2022-11-04]. https://aws.amazon.com/cn/blogs/big-data/build-a-lake-house-architecture-on-aws/.
[117] Armbrust M, Ghodsi A, Xin R, et al. Lakehouse: a new generation of open platforms that unify data warehousing and advanced analytics[C] //. Proceedings of CIDR, 2021.
[118] Behm A, Palkar S, Agarwal U, et al. Photon: A fast query engine for lakehouse systems[C] //. Proceedings of the 2022 International Conference on Management of Data, 2022: 2326–2339.
[119] Errami S A, Hajji H, Kadi K A E, et al. Managing Spatial Big Data on the Data LakeHouse[C] // Springer. International Conference on Networking, Intelligent Systems and Security, 2023: 323–331.
参考文献[1] 国家发展改革委. 能源技术革命创新行动计划(2016-2030年)[R/OL]. (2016-06-01)[2022-09-28]. http://www.gov.cn/xinwen/2016-06/01/5078628/files/d30fbe1ca23e45f3a8de7e6c563c9ec6.pdf.[2] 国家发展改革委. 关于印发《关于加快煤矿智能化发展的指导意见》的通知[EB/OL]. (2020-02-25)[2022-10-04]. http://www.gov.cn/zhengce/zhengceku/2020-03/05/content_5487081.htm.[3] 彭苏萍. 我国煤矿安全高效开采地质保障系统研究现状及展望[J]. 煤炭学报, 2020, 45(07):2331–2345.[4] L’heureux A, Grolinger K, Elyamany H F, et al. Machine learning with big data: Challenges and approaches[J]. Ieee Access, 2017, 5:7776–7797.[5] Guo H. Big Earth data: A new frontier in Earth and information sciences[J]. Big Earth Data, 2017, 1(1-2):4–20.[6] Merritt P, Bi H, Davis B, et al. Big Earth Data: a comprehensive analysis of visualization analytics issues[J]. Big Earth Data, 2018, 2(4):321–350.[7] 翟明国, 杨树锋, 陈宁华, 等. 大数据时代:地质学的挑战与机遇[J]. 中国科学院院刊, 2018, 33(08):825–831.[8] 张耀南, 艾鸣浩, 康建芳, 等. 地学大数据处理架构与关键技术研究[J]. 数据与计算发展前沿, 2020, 2(02):91–100.[9] Pal A, Kumar P, Shah F. Seismic Data Management for Big Data Era[C] //. OnePetro, 2019.[10] 周成虎. 深时数字地球研究展望[EB/OL]. (2022-09-17)[2022-09-24]. https://www.koushare.com/video/videodetail/34161.[11] Manyika J, Chui M, Brown B, et al. Big data: The next frontier for innovation, competition, and productivity[M]. McKinsey Global Institute, 2011.[12] Bell G, Hey T, Szalay A. Beyond the data deluge[J]. Science, 2009, 323(5919):1297–1298.[13] Hey A J G, Tansley S, Tolle K M, et al. The fourth paradigm: data-intensive scientific discovery[M]. Microsoft research Redmond, WA, 2009.[14] Guo H, Wang L, Chen F, et al. Scientific big data and Digital Earth[J]. CHINESE SCIENCE BULLETIN, 2014, 59(35):5066–5073.[15] Nature. Big data[EB/OL]. (2008)[2022-09-24]. http://www.nature.com/news/specials/bigdata/index.html.[16] Science. Special Online Collection: Dealing with Data[EB/OL]. (2011)[2022-09-24]. http://www.sciencemag.org/site/special/data/.[17] C.L. Philip Chen, Chun-Yang Zhang. Data-intensive applications, challenges, techniques and technologies: A survey on Big Data[J]. Information Sciences, 2014, 275:314–347.[18] Oussous A, Benjelloun F-Z, Ait Lahcen A, et al. Big Data technologies: A survey[J]. Journal of King Saud University - Computer and Information Sciences, 2018, 30(4):431–448.[19] Quinteros J, Carter J A, Schaeffer J, et al. Exploring Approaches for Large Data in Seismology: User and Data Repository Perspectives[J]. Seismological Research Letters, 2021, 92(3):1531–1540.[20] Li Z, Yang C, Jin B, et al. Enabling big geoscience data analytics with a cloud-based, MapReduce-enabled and service-oriented workflow framework[J]. PloS one, 2015, 10(3):e0116781.[21] Arrowsmith S J, Trugman D T, MacCarthy J, et al. Big Data Seismology[J]. Reviews of Geophysics, 2022, 60(2):e2021RG000769.[22] 彭苏萍, 卢勇旭. 煤与瓦斯突出灾害隐患高分辨三维地震预测方法[J]. 煤矿安全, 2020, 51(10):34–38.[23] Lumley D. 4D seismic monitoring of CO 2 sequestration[J]. The Leading Edge, 2010, 29(2):150–155.[24] Lumley D, Landrø M, Vasconcelos I, et al. Advances in time-lapse geophysics—Introduction. Society of Exploration GeophysicistsGeophysics:2, 2015. WAi‐WAii.[25] Lumley D E. Time-lapse seismic reservoir monitoring[J]. Geophysics, 2001, 66(1):50–53.[26] 朱光明. 垂直地震剖面法[J]. 石油地球物理勘探, 1980, 15(S2):1–23.[27] 蔡晓慧, 刘洋, 王建民, 等. 基于自适应优化有限差分方法的全波 VSP 逆时偏移[J]. 地球物理学报, 2015, 58(9):3317–3334.[28] 王维红, 刘诗竹, 裴江云, 等. 大庆油田 M1 井 3D VSP 成像方法与应用[J]. 地球物理学进展, 2015(1):171–177.[29] 赵邦六, 董世泰, 曾忠. 井中地震技术的昨天, 今天和明天——井中地震技术发展及应用展望[J]. 石油地球物理勘探, 2017, 52(5):1112–1123.[30] 梁上林, 徐基祥, 孙夕平, 等. VSP 地震干涉测量的稳相分析与高陡构造成像[J]. 地球物理学进展, 2017, 32(1):198–204.[31] 王冲, 蔡志东, 刘聪伟, 等. 库车坳陷高陡构造地区零井源距 VSP 资料波场分析与识别[J]. 地球物理学进展, 2018, 33(4):1596–1602.[32] Daley T M, Freifeld B M, Ajo-Franklin J, et al. Field testing of fiber-optic distributed acoustic sensing (DAS) for subsurface seismic monitoring[J]. The Leading Edge, 2013, 32(6):699–706.[33] Parker T, Shatalin S, Farhadiroushan M. Distributed Acoustic Sensing – a new tool for seismic applications[J]. First Break, 2014, 32(2).[34] Miller D, Parker T, Kashikar S, et al. Vertical seismic profiling using a fibre-optic cable as a distributed acoustic sensor[C] // European Association of Geoscientists & Engineers. 74th EAGE Conference and Exhibition incorporating EUROPEC 2012, 2012: cp‐293.[35] Willis M E, Barfoot D, Ellmauthaler A, et al. Quantitative quality of distributed acoustic sensing vertical seismic profile data[J]. The Leading Edge, 2016, 35(7):605–609.[36] Bakku S K, Wills P, Fehler M, et al. Vertical seismic profiling using distributed acoustic sensing in a hydrofrac treatment well[C] // OnePetro. 2014 SEG Annual Meeting, 2014.[37] Webster P, Wall J, Perkins C, et al. Micro-seismic detection using distributed acoustic sensing[M] //. SEG Technical Program Expanded Abstracts 2013. Society of Exploration Geophysicists, 2013: 2459–2463.[38] Lindsey N J, Martin E R, Dreger D S, et al. Fiber-optic network observations of earthquake wavefields[J]. Geophysical Research Letters, 2017, 44(23):11–792.[39] 何继善. 电法勘探的发展和展望[J]. 地球物理学报, 1997(S1):308–316.[40] 朱国维, 邸兵叶, 马文波, 等. 深部矿井工作面地质条件及其地球物理勘探技术[J]. 煤炭工程, 2008(03):66–68.[41] 程久龙, 李飞, 彭苏萍, 等. 矿井巷道地球物理方法超前探测研究进展与展望[J]. 煤炭学报, 2014, 39(08):1742–1750.[42] Jol H M. Ground penetrating radar theory and applications[M]. Elsevier, 2008.[43] 杨峰, 彭苏萍. 地质雷达探测原理与方法研究[M]. 科学出版社, 2010.[44] 许献磊, 杨峰, 夏云海, 等. 矿井超深探测地质雷达天线的开发及应用[J]. 煤炭科学技术, 2016, 44(04):124–129.[45] 岳建华, 薛国强. 中国煤炭电法勘探36年发展回顾[J]. 地球物理学进展, 2016, 31(04):1716–1724.[46] 袁桂琴, 熊盛青, 孟庆敏, 等. 地球物理勘查技术与应用研究[J]. 地质学报, 2011, 85(11):1744–1805.[47] Bormann P. New Manual of Seismological Observatory Practice (NMSOP-2)[R/OL].IASPEI, GFZ German Research Centre for Geosciences (2012)[2022-10-26]. http://nmsop.gfz-potsdam.de/.[48] Codd E F. Relational database: a practical foundation for productivity[M] //. ACM Turing award lectures. New York: ACM, 2007: 1981. DOI: 10.1145/1283920.1283937.[49] Jing Han, Haihong E, Guan Le, et al. Survey on NoSQL database[C] //. 2011 6th International Conference on Pervasive Computing and Applications, 2011: 363–366.[50] ORACLE. MySQL Documentation[EB/OL]. [2022-11-02]. https://dev.mysql.com/doc/.[51] Microsoft. Access help & learning[EB/OL]. [2022-11-02]. https://support.microsoft.com/en-us/access?ui=en-us&rs=en-us&ad=us.[52] Gorman K, Hirt A, Noderer D, et al. Introducing Microsoft SQL Server 2019: Reliability, scalability, and security both on premises and in the cloud[M]. Packt Publishing Ltd, 2020.[53] IBM. DB2 Version 9.7 for Linux, UNIX, and Windows English manuals[EB/OL]. [2022-11-02]. https://www.ibm.com/support/pages/db2-version-97-linux-unix-and-windows-english-manuals.[54] The PostgreSQL Global Development Group. PostgreSQL 15.0 Documentation[EB/OL]. [2022-11-02]. https://www.postgresql.org/docs/current/.[55] ORACLE. Oracle Database Documentation[EB/OL]. [2022-11-02]. https://docs.oracle.com/en/database/oracle/oracle-database/index.html.[56] George L. HBase: the definitive guide: random access to your planet-size data[M]. O’Reilly Media, Inc, 2011.[57] Lakshman A, Malik P. Cassandra: a decentralized structured storage system[J]. ACM SIGOPS Operating Systems Review, 2010, 44(2):35–40.[58] Macedo T, Oliveira F. Redis cookbook: Practical techniques for fast data manipulation[M]. O’Reilly Media, Inc, 2011.[59] Bradshaw S, Brazil E, Chodorow K. MongoDB: the definitive guide: powerful and scalable data storage[M]. O’Reilly Media, 2019.[60] Miller J J. Graph database applications and concepts with Neo4j[C] //. Proceedings of the southern association for information systems conference, Atlanta, GA, USA, 2013.[61] Naqvi S N Z, Yfantidou S, Zimányi E. Time series databases and influxdb[J]. Studienarbeit, Université Libre de Bruxelles, 2017, 12.[62] Chang F, Dean J, Ghemawat S, et al. Bigtable: A distributed storage system for structured data[J]. ACM Transactions on Computer Systems (TOCS), 2008, 26(2):1–26.[63] Gil Y, Pierce S A, Babaie H, et al. Intelligent systems for geosciences: an essential research agenda[J]. Communications of the ACM, 2018, 62(1):76–84.[64] 许娜, 耿恒高, 徐传鹏, 等. 基于MongoDB的地震勘探数据管理系统的设计与实现[J]. 实验室研究与探索, 2022, 41(02):251–260.[65] Ghemawat S, Gobioff H, Leung S-T. The Google file system[C] //. Proceedings of the nineteenth ACM symposium on Operating systems principles, 2003: 29–43.[66] Weil S A, Brandt S A, Miller E L, et al. Ceph: A scalable, high-performance distributed file system[C] //. Proceedings of the 7th symposium on Operating systems design and implementation, 2006: 307–320.[67] Shvachko K, Kuang H, Radia S, et al. The hadoop distributed file system[C] // IEEE. 2010 IEEE 26th symposium on mass storage systems and technologies (MSST), 2010: 1–10.[68] Davies A, Orsaria A. Scale out with GlusterFS[J]. Linux Journal, 2013, 2013(235):1.[69] GridFS[EB/OL]. [2022-11-01]. https://www.mongodb.com/docs/manual/core/gridfs/.[70] Ahrens J, Hendrickson B, Long G, et al. Data-intensive science in the US DOE: case studies and future challenges[J]. Computing in Science & Engineering, 2011, 13(6):14–24.[71] Martin Abadi, Paul Barham, Jianmin Chen, et al. {TensorFlow}: A System for {Large-Scale} Machine Learning[C] //, 2016: 265–283.[72] Paszke A, Gross S, Massa F, et al. Pytorch: An imperative style, high-performance deep learning library[J]. Advances in neural information processing systems, 2019, 32.[73] Pedregosa F, Varoquaux G, Gramfort A, et al. Scikit-learn: Machine learning in Python[J]. the Journal of machine Learning research, 2011, 12:2825–2830.[74] Dean J, Ghemawat S. MapReduce: simplified data processing on large clusters[J]. Communications of the ACM, 2008, 51(1):107–113.[75] Apache Software Foundation. Apache Hadoop[J]. 2011.[76] Zaharia M, Xin R S, Wendell P, et al. Apache spark: a unified engine for big data processing[J]. Communications of the ACM, 2016, 59(11):56–65.[77] Carbone P, Katsifodimos A, Ewen S, et al. Apache flink: Stream and batch processing in a single engine[J]. Bulletin of the IEEE Computer Society Technical Committee on Data Engineering, 2015, 36(4).[78] Merkel D, others. Docker: lightweight linux containers for consistent development and deployment[J]. Linux j, 2014, 239(2):2.[79] Hightower K, Burns B, Beda J. Kubernetes: Up and Running Dive into the Future of Infrastructure. OReilly Media[J]. Inc., Sebastopol, 2017.[80] Zaharia M, Chowdhury M, Franklin M J, et al. Spark: Cluster computing with working sets[C] //. 2nd USENIX Workshop on Hot Topics in Cloud Computing (HotCloud 10), 2010.[81] Proceedings of the VLDB Endowment. State management in Apache Flink®: consistent stateful distributed stream processing: Proceedings of the VLDB Endowment: Vol 10, No 12[EB/OL]. (2022/11/3)[2022-11-03].[82] 开放原子开源基金会;X-lab开放实验室, 阿里巴巴开源委员会. 2022年开源大数据热力报告[EB/OL]. (2022-11-04)[2022-11-08]. https://developer.aliyun.com/ebook/7816?spm=a2c6h.26392470.ebook-read.7.6d7623b3IBWD2r.[83] Yan Y, Huang L, Yi L. Is apache spark scalable to seismic data analytics and computations?[C] // IEEE. 2015 IEEE International Conference on Big Data (Big Data), 2015: 2036–2045.[84] Yan X, Zhu Z, Wu Q. Intelligent inversion method for pre-stack seismic big data based on MapReduce[J]. Computers & Geosciences, 2018, 110:81–89.[85] Jiang W, Zhang J, Bell L. 3D seismic geometry quality control and corrections by applying machine learning3D seismic geometry QC and corrections[J]. Geophysics, 2019, 84(6):P87‐P96.[86] Zhu W, Mousavi S M, Beroza G C. Seismic Signal Denoising and Decomposition Using Deep Neural Networks[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(11):9476–9488.[87] Wang S, Zhang J. Automatic Detection of Amplitude-Distorted Samples from Clipped Seismic Waveforms[J]. Seismological Research Letters, 2020, 91(6):3563–3573.[88] Mousavi S M, Sheng Y, Zhu W, et al. STanford EArthquake Dataset (STEAD): A Global Data Set of Seismic Signals for AI[J]. Ieee Access, 2019, 7:179464–179476.[89] Mousavi S M, Ellsworth W L, Zhu W, et al. Earthquake transformer-an attentive deep-learning model for simultaneous earthquake detection and phase picking[J]. Nature Communications, 2020, 11(1):3952.[90] Chenoweth T, Corral K, Demirkan H. Seven key interventions for data warehouse success[J]. Commun. ACM, 2006, 49(1):114–119.[91] Jukić N, Sharma A, Nestorov S, et al. Augmenting Data Warehouses with Big Data[J]. Information Systems Management, 2015, 32(3):200–209.[92] Bimonte S, Gallinucci E, Marcel P, et al. Data variety, come as you are in multi-model data warehouses[J]. Information Systems, 2022, 104:101734.[93] 王永志. 基于数据仓库和SOA的地学数据集成与应用的关键技术研究[D]. 吉林大学, 2008.[94] Glorio O, Mazón J-N, Garrigós I, et al. Using web-based personalization on spatial data warehouses[C] //. Proceedings of the 2010 EDBT/ICDT Workshops, 2010: 1–8.[95] 魏红雨. 基于4G地学空间数据集成关键技术研究[D]. 吉林大学, 2014.[96] Bimonte S, Zaamoune M, Beaune P. Conceptual design and implementation of spatial data warehouses integrating regular grids of points[J]. INTERNATIONAL JOURNAL OF DIGITAL EARTH, 2017, 10(9):901–922.[97] Nimmagadda S, Ochan A, Mani N, et al. Big Data guided Digital Petroleum Ecosystems for Visual Analytics and Knowledge Management[J]. 2021.[98] Wang B, Wu L, Xie Z, et al. Understanding geological reports based on knowledge graphs using a deep learning approach[J]. Computers & Geosciences, 2022, 168:105229.[99] Abadi D, Ailamaki A, Andersen D, et al. The Seattle Report on Database Research[J]. ACM SIGMOD Record, 2020, 48(4):44–53.[100] Dixon J. Pentaho, Hadoop, and Data Lakes[EB/OL]. (2010-10-14)[2022-10-15]. https://jamesdixon.wordpress.com/2010/10/14/pentaho-hadoop-and-data-lakes/.[101] Chris C. Top five differences between data lakes and data warehouses[EB/OL]. (2015-01-25)[2022-10-27]. https://www.bluegranite.com/blog/bid/402596/top-five-differences-between-data-lakes-and-data-warehouses.[102] Nadipalli R. Effective business intelligence with QuickSight[M]. Birmingham, UK: Packt Publishing, 2017.[103] Ravat F, Zhao Y. Data lakes: Trends and perspectives[C] // Springer. International Conference on Database and Expert Systems Applications, 2019: 304–313.[104] 李国欣, 王峰, 皮学军, 等. 非常规油气藏地质工程一体化数据优化应用的思考与建议[J]. 中国石油勘探, 2019, 24(02):147–152.[105] 吴冲龙, 刘刚, 周琦, 等. 地质科学大数据统合应用的基本问题[J]. 地质科技通报, 2020, 39(04):1–11.[106] 杜金虎, 时付更, 张仲宏, 等. 中国石油勘探开发梦想云研究与实践[J]. 中国石油勘探, 2020, 25(01):58–66.[107] 侯宁. 油田区域数据湖的数据集成技术研究[D]. 东北石油大学, 2021.[108] Schlumberger. DELFI Cognitive E&P Environment[EB/OL]. [2022-11-13]. https://www.software.slb.com/delfi.[109] Armbrust M, Ghodsi A, Xin R, et al. Lakehouse: a new generation of open platforms that unify data warehousing and advanced analytics[C] //. Proceedings of CIDR, 2021.[110] Delta Lake. Welcome to the Delta Lake documentation[EB/OL]. (2022-11-01)[2022-11-02]. https://docs.delta.io/latest/index.html.[111] Apache Iceberg. Documentation[EB/OL]. [2022-11-02]. https://iceberg.apache.org/docs/latest/.[112] Apache Hudi. Overview[EB/OL]. [2022-11-02]. https://hudi.apache.org/docs/overview.[113] Oreščanin D, Hlupić T. Data Lakehouse-a Novel Step in Analytics Architecture[C] // IEEE. 2021 44th International Convention on Information, Communication and Electronic Technology (MIPRO): 1242–1246.[114] Ben L, Michael A, Reynold X, et al. What Is a Lakehouse?[EB/OL]. (2020-01-30)[2022-10-19]. https://www.databricks.com/blog/2020/01/30/what-is-a-data-lakehouse.html.[115] Snowflake. WHAT IS A DATA LAKEHOUSE?[EB/OL]. [2022-10-19]. https://www.snowflake.com/guides/what-data-lakehouse.[116] Praful K, Changbin G. Build a Lake House Architecture on AWS[EB/OL]. (2021-04-28)[2022-11-04]. https://aws.amazon.com/cn/blogs/big-data/build-a-lake-house-architecture-on-aws/.[117] Armbrust M, Ghodsi A, Xin R, et al. Lakehouse: a new generation of open platforms that unify data warehousing and advanced analytics[C] //. Proceedings of CIDR, 2021.[118] Behm A, Palkar S, Agarwal U, et al. Photon: A fast query engine for lakehouse systems[C] //. Proceedings of the 2022 International Conference on Management of Data, 2022: 2326–2339.[119] Errami S A, Hajji H, Kadi K A E, et al. Managing Spatial Big Data on the Data LakeHouse[C] // Springer. International Conference on Networking, Intelligent Systems and Security, 2023: 323–331.