摘要
- 采用大数据技术直接在海量地质数据中挖掘知识,能突破“采样随机性和样本空间狭小”的传统地质数据分析方法的限制,可以推进数据驱动的地质智能服务,改变传统地质数据应用和协同服务能力不足的现状,促进地质科学的发展。
- 大数据的表示与关联是大数据研究领域的热点,但是当前地质领域对大数据的表示及关联方面的研究还不足。
内容
- 地质大数据特征及相关表示技术分析。
- 自然语言处理领域模型对地质空间实体和文本对象进行表示的可行性。
- 基于句向量组合的层次化地质空间实体语义化表示方法。
- 用于地质空间实体与描述文本匹配的带注意力机制的层次化孪生网络模型。
- 基于本体映射的地质实体信息网络构建及表示方法。
- 地质领域文本信息提取中地质实体间缺少语义关联的情况,设计了地质领域本体库,并基于本体库进行地质命名实体标注与命名实体识别及关系映射,进而构建了地质实体信息网络。
- 地质大数据表示与关联原型系统设计及实现。
- 构建了地质大数据表示与关联原型系统,设计了系统架构以及数据处理模式、访问模式、计算模式。
方法
- 利用自然语言处理领域的语义表示技术结合地质领域知识提取及深度学习技术,研究非结构化地质报告中实体与空间地质数据中实体的语义关联性度量方法,构建地质空间实体与非空间实体的属性与文本语义匹配模型。
论文
- 基于文件目录的方式最简单,但不适用于大规模的数据,更新与检索不方便;
- 应用数据库可以很大程度上提高地质调查成果中结构化数据的存储、查询、索引、更新的效率,但不适用于地质文本数据、图片等数据的存储与管理,这类数据当前多以文件目录形式进行组织和存储,在数据库表中只维护与外部文件相关的索引与指针,这种分离的方式,检索与存储代价较高,不利于地质数据内部文本及其他信息的解析和挖掘;
- 半结构化数据管理技术通过提取非结构化地质文件的元数据信息,构建描述文件数据内容的元信息库,来实现对非结构化数据的检索与发现。
- 因此,国内对地质大数据的价值越来越重视,很多学者已经开始在地质大数据的组织和挖掘方面开展了一系列的工作。(因此,应用数据湖)
- 文本的数据表示
- 词表示方法
- 用 word2vec 工具在项目中整理的地质语料库的基础上训练获取领域词向量
- 句子表示方法
- 归神经网络
- 深度卷积神经网络
- 循环神经网络
- 段落表示方法
- 地质大数据中,各类地质空间数据和文本数据虽然总量很大,但是一般入库后基本固定,不会频繁的进行删改,系统设计实现时考虑到这一因素,采用了Sequence File 结构实现了海量地质小文件的合并存储。