BigData1:大数据

数据挖掘及数据管理领域的技术发展历程

数据库、数据仓库、数据挖掘技术是大数据技术的基础。

大数据的特征

1、价值密度低 value

大数据呈几何指数爆发式增长，某一对象或模块数据价值密度低

2、体量大volume

人类数据每18个月翻一番

3、速度快velocity

数据生成、存储、分析、处理速度

4、种类多variety

数据来源广、维度多、类型杂

数据思维

数据处理

处理半结构化、非结构化数据

数据分析

大数据的技术支撑

数据采集—>数据存储—>数据加工处理平台—>利用算法挖掘数据—>大数据应用

分布式存储

分布式处理

大数据安装管理工具

Ambari

Ambari 的作用来说，就是创建、管理、监视 Hadoop 的集群，但是这里的 Hadoop 是广义，指的是 Hadoop 整个生态圈(例如 Hive，Hbase，Sqoop，Zookeeper 等)，而并不仅是特指 Hadoop。用一句话来说，Ambari 就是为了让 Hadoop 以及相关的大数据软件更容易使用的一个工具。

数据采集层

Sqoop

用于关系型数据库到大数据平台

Kafka

消息总线耦合性
消息中间件
消息队列
发布模式

Flume

流式数据实时数据
日志

数据处理层

并行计算框架MapReduce

交互式计算框架Tez

迭代式计算框架Graphx、Hama

实时计算框架 Druid

流式计算框架 Storm、Spark Straming

数据处理层

资源管理器

Yarn(主流)

是一个Hadoop资源管理器，提供资源管理和调度；

Mesos

任务调度

ZooKeeper

分布式协调系统

Paxos

数据分析层

交互式查询、SQL查询

Hive

数据仓库基础架构，用于数据的提取、转化和加载。
提供查询语言，HiveSQL
构建在Hadoop上

大规模数据分析工具，为复杂的海量数据并行计算提供简单的操作和编程接口。
构建在Hadoop上

Impala交互

使用MPP查询引擎。提供低延迟、高并发以读为主的查询，允许用户使用SQL处理存储在Hadoop中的数据
Impala使用Hive数据库、SQL语法、ODBC驱动
构建在Hadoop上

Kylin交互OLAP

分布式多维分析引擎
采用多维立方体（Cube）预计算技术，将SQL查询速度提升到亚秒级别。

类库、数据分析

Mlib

Spark常用机器学习算法

SparkR

很多统计学使用R语言，支持R语言

数据可视化及应用

前端开发、产品经理

商业智能（Business Intelligence, BI），又称商业智能或商务智能，指用现代数据仓库技术、在线分析处理技术、数据挖掘和资料展现技术进行资料分析以实现商业价值

BigData1:大数据

目录

数据挖掘及数据管理领域的技术发展历程

大数据的特征

数据思维

数据处理

数据分析

大数据的技术支撑

大数据安装管理工具

数据采集层

数据处理层

资源管理器

任务调度

数据分析层

数据可视化及应用