文献摘要
- 存储系统是实现数据持久化的基石
- 本论文中,我们主要关注提高性能和成本效益大数据应用的不同存储系统
- 由于数据规模和性能要求提高,设计和实现文件系统良好的性能和高成本效益是紧迫但具有挑战性的
- 热点文件快速迁移层以确保高性能和冷文件迁移到慢层以降低存储成本
- 主要对象——减少恢复过程中的存储读取
- 在大数据基础设施中,计算集群和存储集群是分离的以实现高可用性、灵活性和成本效益。然而,这也导致存储和计算集群之间的大量网络流量,导致潜在的性能损失。
大数据
- 进入21世纪,世界创新正从IT驱动转变(信息技术驱动)到DT驱动(数据技术驱动)。
- 为了有效降低存储系统延迟。提高吞吐量,快速存储设备]如基于闪存的SSD[18,19,20和非易失性存储器(NVM)[21,22,23,24]。
图:具有不同存储系统的典型大数据基础架构
根据使用和存储目的分为三类:存储系统、热/冷存储系统和数据处理的存储系统。
数据管理
- 冷存储系统存储来自主存储系统的备份和归档数据
- 数据批处理应用程序(例如,Spark[28])、机器学习服务、数据挖掘服务、人工智能训练/推理服务、和图形处理应用程。
- 灵活性、可用性、可管理性、可扩展性
结论
- 在主存储系统中,提出并开发了TDDFS,一种分层感知文件具有重复数据删除功能的系统。这项研究解决了存储之间的权衡系统成本和性能。TDDFS 将大部分热文件存储在快速层中以确保高性能。在同时,大部分冷文件迁移到慢层。
- 在冷存储系统中,重复数据删除是一项重要的技术实现高空间效率,尤其是归档和备份数据
挑战
- 大数据应用的存储系统通常是大规模的、分布式的和复杂的。不同的应用程序、不同的用例、不同的数据类型会导致存储系统中的各种问题和挑战。
- 数据可以存储在 5G 基站、网络交换机、计算集群和存储系统中。基于数据创建、数据使用、和长期目的地。如何决定存储数据的位置,如何管理数据流动,以及如何帮助不同的应用程序探索他们需要的数据在为大型企业设计超融合基础设施时需要解决哪些挑战。