在地质尤其是矿产地质领域,大数据除了具有4V( Volume、Velocity、Variety、Value) 四大特点之外,还需要强调它所具有的专业特殊性和资料的保密性。
1、地质大数据具有大量性。到底有多少地质数据,并没有权威部门给出统计结果,但“无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理" 这一点是不言而喻的。显然,地质数据也是一个数据集合,包括地质、矿产、遥感、物探、化探等各个专业,而且相互关联。
地质大数据具有特殊性。目前,中国地质调查局系统已建成的数据库包括区域地质数据库(涵盖全国1:250万、1:100万、1:50万、1:25万、1:20万区域地质图,全国1:20万自然重砂,全国同位素地质测年,全国岩石地层单位等数据库) 、基础地质数据库( 涵盖全国岩石物性、全国地质工作程度等数据库) 、矿产资源数据库、油气能源数据库、地球物理数据库( 涵盖全国1:100万、1:50万、1:25万、1:20 万、1:5万重力,全国区域重力、全国航磁,全国地面磁力,全国电法勘查, 地震勘查, 全国航空放射性,全国测井等数据库) 、地球化学数据库( 涵盖全国 1 ∶ 25 万、1 ∶ 20 万化探, 全国多目标地球化学,全国土地质量评价成果等数据库) 、遥感调查数据库( 全国航空遥感影像、中国资源卫星资料、航天遥感影像、全国矿山环境遥感监测、全国高分卫星等数据库) 、钻探数据库( 涵盖全国地质钻孔信息、全国重要地质钻孔、中国大陆科学钻探钻孔岩芯扫描图像库等) 、水工环灾害数据库、资料文献数据库、专题专项数据库( 涵盖全国矿产资源潜力评价数据库、重要矿产“三率”调查与评价数据库等) 、工作管理方面的数据库( 涵盖全国探矿权、采矿权、矿业权核查、地质信息元数据库等) 。
3、涉密地质数据。地质数据中有很多涉及国家秘密的地质资料,包括1:2.5万、1:5万、1:10万、1:20 万、1:25万区域性绝对重力资料以及物探重力Ⅰ级、Ⅱ级基点联测成果资料和小面积大比例尺的重力测量平面图及剖面图,比例尺在1:50万—1:100万之间、精度达到或超过±5mGal的区域性绝对重力成果图件,比例尺在1: 100万—1:400万之间的区域绝对重力成果图件;重力测量图及报告中的联测基点数据重力值及全国网联测的布格重力异常图( 进行了地形改造) 、自由空间图、均衡图、点位数据图。
4、地质大数据的多样性。地质数据具有多源、多元、异构、时空性、方向性、相关性、随机性、模糊性、非线性等特征。地质数据具有深地、深空、深海和深时特点,空间和时间跨度大,数据获取难度大、成本高、局限性强, 同时也具有混合性和多总体性、地质体的变化性、观测的抽样性和事件结果的不确定性。定量地学研究的目标要求是定性、定量、定位、定向、定级、定度、定类、定型、定因、定果、定优劣、定概率。
5、地质数据的价值性。对于“大数据”价值性的理解,目前还存在歧义,有的只强调“价值密度低”( 海量数据中真正有用的信息少之又少) ,有的则强调“商业价值高”( 不用多大投入,仅仅从网络搜集资料就可以带来“商业价值”) 。总体来看,地质大数据兼有“价值密度低,商业价值高”的特点。
总之,地质大数据应用研究是国家大数据战略的组成部分。地质学属于数据密集型学科,与地球科学面临的问题息息相关。已经收集的和将要收集的大量数字国土相关数据,由于科学研究的需要,正在不断加以检验和扩充,并已更好地应用与服务于人类活动。