🕌

BigData1:大数据

Created
Nov 1, 2021 02:36 PM
Describe
北邮大数据技术基础课程
Tags

目录

数据挖掘及数据管理领域的技术发展历程

数据库、数据仓库、数据挖掘技术是大数据技术的基础。

大数据的特征

1、价值密度低 value
  • 大数据呈几何指数爆发式增长,某一对象或模块数据价值密度低
2、体量大volume
  • 人类数据每18个月翻一番
3、速度快velocity
  • 数据生成、存储、分析、处理速度
4、种类多variety
  • 数据来源广、维度多、类型杂

数据思维

数据处理

  1. 处理半结构化、非结构化数据

数据分析

 
 

大数据的技术支撑

 
notion image
 
数据采集—>数据存储—>数据加工处理平台—>利用算法挖掘数据—>大数据应用
 
notion image
notion image
 
分布式存储
分布式处理
notion image
 
 
notion image
 
notion image
 

大数据安装管理工具

Ambari
Ambari 的作用来说,就是创建、管理、监视 Hadoop 的集群,但是这里的 Hadoop 是广义,指的是 Hadoop 整个生态圈(例如 Hive,Hbase,Sqoop,Zookeeper 等),而并不仅是特指 Hadoop。用一句话来说,Ambari 就是为了让 Hadoop 以及相关的大数据软件更容易使用的一个工具。
 

数据采集层

  • Sqoop
    • 用于关系型数据库到大数据平台
  • Kafka
    • 消息总线 耦合性
    • 消息中间件
    • 消息队列
    • 发布模式
  • Flume
    • 流式数据 实时数据
    • 日志
    •  
       

数据处理层

  • 并行计算框架MapReduce
  • 交互式计算框架Tez
  • 迭代式计算框架Graphx、Hama
  • 实时计算框架 Druid
  • 流式计算框架 Storm、Spark Straming
 
数据处理层

资源管理器

  • Yarn(主流)
    • 是一个Hadoop资源管理器,提供资源管理和调度;
  • Mesos
    •  
 

任务调度

  • ZooKeeper
    • 分布式协调系统
  • Paxos
 
 
 

数据分析层

  • 交互式查询、SQL查询
    • Hive
      • 数据仓库基础架构,用于数据的提取、转化和加载。
      • 提供查询语言,HiveSQL
      • 构建在Hadoop上
    • Pig
      • 大规模数据分析工具,为复杂的海量数据并行计算提供简单的操作和编程接口。
      • 构建在Hadoop上
    • Impala交互
      • 使用MPP查询引擎。提供低延迟、高并发以为主的查询,允许用户使用SQL处理存储在Hadoop中的数据
      • Impala使用Hive数据库、SQL语法、ODBC驱动
      • 构建在Hadoop上
    • Kylin交互OLAP
      • 分布式多维分析引擎
      • 采用多维立方体(Cube)预计算技术,将SQL查询速度提升到亚秒级别。
  • 类库、数据分析
    • Mlib
      • Spark常用机器学习算法
    • SparkR
      • 很多统计学使用R语言,支持R语言
      •  
         

数据可视化及应用

  • 前端开发、产品经理