BigData9:Hadoop

BigData9:Hadoop

Created
Nov 1, 2021 02:36 PM
Describe
Link
Tags
Hadoop

概念

  • 分布式文件系统HDFS和分布式计算框架MapReduce
  • Google VS Hadoop
    • GFS—>HDFS
    • MapReduce—>Hadoop
    • BigTable—>HBase
 

HDFS

  • 写数据流程
    • 创建
    • 写数据
    • 写文件包
    •  
  • 读数据流程
    • 文件读取请求
    • 返回文件存储的DataNode信息
    • 读取文件信息
  • RAM_DISK内存:内存镜像文件系统
  • SSD固态硬盘:SSD盘
  • DSIK磁盘:普通磁盘
  • ARCHIVE高密度存储介质:归档
 
热数据存放在内存或SSD中,冷数据放在DISK、ARCHIV
 

HDFS优缺点

  • 优点
    • 高容错性
    • 适合批处理
    • 适合大数据处理
    • 流文件访问
      • 一次写入,多次读取,文件一旦写入不能修改,只能追加
    • 可构建在廉价机器上
  • 缺点
    • 低延迟数据访问受限
    • 无法高效存储大量小文件
      • NameNode的存储有限
      • 64M
    • 不支持多用户写入
    • 不支持任意修改文件
      • 追加文件
      •  
         

      HDFS使用

    • shell命令
    •  

      Sqoop数据导入HDFS

    • Sqoop连接关系型数据库和Hadoop生态系统,提高数据的拷贝和传输效率。
    • 三部分组成
      • Sqoop client、HDFS、HBase/Hive、Database