概念
- 分布式文件系统HDFS和分布式计算框架MapReduce
- Google VS Hadoop
- GFS—>HDFS
- MapReduce—>Hadoop
- BigTable—>HBase
HDFS
- 写数据流程
- 创建
- 写数据
- 写文件包
- 读数据流程
- 文件读取请求
- 返回文件存储的DataNode信息
- 读取文件信息
- RAM_DISK内存:内存镜像文件系统
- SSD固态硬盘:SSD盘
- DSIK磁盘:普通磁盘
- ARCHIVE高密度存储介质:归档
热数据存放在内存或SSD中,冷数据放在DISK、ARCHIV
HDFS优缺点
- 优点
- 高容错性
- 适合批处理
- 适合大数据处理
- 流文件访问
- 一次写入,多次读取,文件一旦写入不能修改,只能追加
- 可构建在廉价机器上