概念
数据湖的出现主要是为了解决存储全域原始数据的问题。
将 Data Lake 视为原水库,而不是经过净化的即饮瓶装水的架子。可以以不同的方式处理水库中的水,这不仅会导致净化、装瓶和消耗的过程。
数据湖中存在的信息有不同的来源:它是关系数据和非关系数据,来自企业应用程序、IoT(物联网)设备、移动应用程序、社交网络、网站等。它们以原始格式保存并按需处理,从而减少了构建可能无法转化为业务竞争优势的数据的工作量。
Data Lake 采用不同的方法来使用数据。与以标准格式存储已处理和组织的数据的数据集市和数据仓库不同,数据湖是不符合预定义目标的数据存储库,因此可以针对不同的项目和目的进行咨询。这些数据可以服务于不可预见的战略业务分析和决策,甚至可以在不同部门之间共享,从而确保速度并实现创新。
数据湖是一个存储库,它以原始格式保存大量原始数据,直到需要它为止。分层数据仓库将数据存储在文件或文件夹中,而数据湖使用平面架构来存储数据。湖中的每个数据元素都被分配了一个唯一的标识符,并使用一组扩展的元数据标签进行标记。当出现业务问题时,可以在数据湖中查询相关数据,然后可以分析较小的数据集以帮助回答问题。
另一方面,数据湖以原生格式维护数据,并处理大数据的三个 V——数量、速度和多样性——同时提供用于分析、查询和处理的工具。数据湖通过提供无限空间、不受限制的文件大小、读取模式以及访问数据的各种方式(包括编程、类似 SQL 的查询和 REST 调用),消除了典型数据仓库系统的所有限制。
随着 Hadoop(包括 HDFS 和 YARN)的出现,数据湖的好处(以前只有 Google、Yahoo 和 Facebook 等资源最丰富的公司才能使用)对几乎任何人来说都成为现实。现在,那些一直在大规模生成和收集数据但难以以有意义的方式存储和处理它们的组织有了更多的选择。