目录
数据挖掘及数据管理领域的技术发展历程
数据库、数据仓库、数据挖掘技术是大数据技术的基础。
大数据的特征
1、价值密度低 value
- 大数据呈几何指数爆发式增长,某一对象或模块数据价值密度低
2、体量大volume
- 人类数据每18个月翻一番
3、速度快velocity
- 数据生成、存储、分析、处理速度
4、种类多variety
- 数据来源广、维度多、类型杂
数据思维
数据处理
- 处理半结构化、非结构化数据
数据分析
大数据的技术支撑
数据采集—>数据存储—>数据加工处理平台—>利用算法挖掘数据—>大数据应用
分布式存储
分布式处理
大数据安装管理工具
Ambari
Ambari 的作用来说,就是创建、管理、监视 Hadoop 的集群,但是这里的 Hadoop 是广义,指的是 Hadoop 整个生态圈(例如 Hive,Hbase,Sqoop,Zookeeper 等),而并不仅是特指 Hadoop。用一句话来说,Ambari 就是为了让 Hadoop 以及相关的大数据软件更容易使用的一个工具。
数据采集层
- Sqoop
- 用于关系型数据库到大数据平台
- Kafka
- 消息总线 耦合性
- 消息中间件
- 消息队列
- 发布模式
- Flume
- 流式数据 实时数据
- 日志
数据处理层
- 并行计算框架MapReduce
- 交互式计算框架Tez
- 迭代式计算框架Graphx、Hama
- 实时计算框架 Druid
- 流式计算框架 Storm、Spark Straming
数据处理层
资源管理器
- Yarn(主流)
- 是一个Hadoop资源管理器,提供资源管理和调度;
- Mesos
任务调度
- ZooKeeper
- 分布式协调系统
- Paxos
数据分析层
- 交互式查询、SQL查询
- Hive
- 数据仓库基础架构,用于数据的提取、转化和加载。
- 提供查询语言,HiveSQL
- 构建在Hadoop上
- Pig
- 大规模数据分析工具,为复杂的海量数据并行计算提供简单的操作和编程接口。
- 构建在Hadoop上
- Impala交互
- 使用MPP查询引擎。提供低延迟、高并发以读为主的查询,允许用户使用SQL处理存储在Hadoop中的数据
- Impala使用Hive数据库、SQL语法、ODBC驱动
- 构建在Hadoop上
- Kylin交互OLAP
- 分布式多维分析引擎
- 采用多维立方体(Cube)预计算技术,将SQL查询速度提升到亚秒级别。
- 类库、数据分析
- Mlib
- Spark常用机器学习算法
- SparkR
- 很多统计学使用R语言,支持R语言
数据可视化及应用
- 前端开发、产品经理
- BI