🔔

BigData Note1:大数据体系架构

 
  1. 架构底层技术体系
    1. Java SE
    2. 数据库
    3. Git+Maven
    4. shell命令
    5. MyBati持久化
    6. Spring容器框架
    7. Spring MVC Web框架
    8. SpringBoot框架
    9. 技术底层JVN调优
    10. 多线程与高并发
    11. 网络通信IO
    12. Linux操作系统
  1. 数据采集术技术体系
    1. 离线数据分布式采集技术
      1. 数据采集系统Sqoop
      2. 数据采集系统DataX
      3. 数据采集系统Kettle
    2. 实时数据分布式采集技术
      1. 数据采集系统Flume
      2. 数据采集系统Maxwell
      3. 数据采集系统Canal
      4. 数据采集系统Nifi
  1. 中间件技术体系
    1. 分布式协调系统Zookeeper
    2. 分布式缓存系统Redis
    3. 分布式消息系统
      1. 分布式消息系统Kafka
      2. 分布式消息系统Pular
    4. 分布式数据分析系统ELK Stack
  1. 数据存储技术体系
    1. 分布式文件系统HDFS
    2. 分布式数据湖HBase
    3. 分布式数据仓库Hive
    4. 新一代分布式数据存储-数据湖生态体系
      1. 数据湖技术Hudi
      2. 数据湖技术Delta Lake
      3. 数据湖技术 Iceberg
  1. 数据处理技术体系
    1. 分布式计算引擎MapReduce
    2. 分布式计算引擎Spark
    3. 分布式计算引擎Flink
  1. OLAP数据分析生态体系
    1. OLAP分析引擎Kylin
    2. OLAP分析引擎Presto
    3. OLAP分析引擎Druid
    4. OLAP分析引擎Impala
    5. OLAP分析引擎Phoenix
    6. OLAP分析引擎Kudu
    7. OLAP分析引擎Clickhouse
    8. OLAP分析引擎Doris
  1. 架构设计体系
    1. 分布式离线数据仓库体系
    2. 分布式实时数据仓库体系
    3. 分布式数据治理技术体系
      1. 数据质量管理
      2. 元数据管理Atlas
      3. 数据安全管理Ranger
      4. 数据安全管理Kerberos
    4. 信息化数据中台技术体系
      1. 数据中台构建
    5. BI大数据可视化技术体系
      1. BI可视化Hue
      2. BI可视化Superset
      3. BI大屏可视化TCV
  1. 集群调度管理体系
    1. 分布式资源调度引擎Yarn
    2. 分布式任务调度引擎
      1. 任务流调度oozie
      2. 任务流调度Azkaban
      3. 任务流调度Airflow
    3. 大数据集群管理平台体系
      1. 集群管理平台Cloudera Manager
      2. 集群管理平台Ambari
  1. 数据挖掘体系
    1. 机器学习与数据碗蕨算法体系
      1. 多源线性回归算法
      2. 贝叶斯分类算法
      3. KNN分类算法
      4. Kmeans算法、Kmeans++算法
      5. TF-IDF算法
      6. 逻辑回归算法
      7. 决策树算法
      8. 随机森林算法
  1. 企业级项目体系