BigData Note5:大数据组件

缓存 Redis Alluxio Apache Ignite 实时查询 Apache Drill Apache Presto 特点 Apache Solr 算法库 Apache Mahout 数据湖 JindoFS 脚本语言 Apache Pig 资源调度 YARN Kubernetes Mesos XXL-JOB Oozie 任务调度 Zookeeper Kafka 采集工具 sqoop Flume 管理工具为什么需要他们 Ambari CDH Hue

缓存

Redis

Alluxio

Alluxio：Alluxio（之前名为Tachyon）是世界上第一个以内存为中心的虚拟的分布式存储系统。它统一了数据访问的方式，为上层计算框架和底层存储系统构建了桥梁。应用只需要连接Alluxio即可访问存储在底层任意存储系统中的数据。此外，Alluxio的以内存为中心的架构使得数据的访问速度能比现有常规方案快几个数量级。

Apache Ignite

• Apache gnite是一个开源的分布式数据库、缓存和处理平台，它以内存速度处理数PB的数据。

实时查询

Apache Drill

Apache Drill：Apache Drill是一个能够对大数据进行实时的分布式查询引擎。

Apache Presto

Apache Presto是一种分布式并行查询执行引擎，针对低延迟和交互式查询分析进行了优化。Presto可以轻松运行查询，即使从千兆字节到百万字节，也能缩短时间。

单个Presto查询可以处理来自多个来源的数据，如HDFS，MySQL，Cassandra，Hive以及更多的数据源。Presto内置Java，易于与其他数据基础架构组件集成。Presto是强大的，领先的公司，如Airbnb，DropBox，Groupon，Netflix正在采用它。

特点

简单可扩展的架构。

可插拔连接器 - Presto支持可插拔连接器，为查询提供元数据和数据。

流水线执行 - 避免不必要的I / O延迟开销。

用户定义的功能 - 分析人员可以创建自定义用户定义的功能，轻松迁移。

矢量化柱状处理。

Apache Solr

Solr是Apache下的一个顶级开源项目，采用Java开发，它是基于Lucene的全文搜索服务器。Solr提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展，并对索引、搜索性能进行了优化。

算法库

Apache Mahout

Apache Mahout ：是 Apache Software Foundation（ASF ）旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现 ，旨在帮助开发人员更加方便快捷地创建智能应用程序。

数据湖

JindoFS

EMR Jindo 是阿里云基于 Apache Spark / Apache Hadoop 在云上定制的分布式计算和存储引擎。

EMR Jindo 有计算和存储两大部分，存储的部分叫 JindoFS。JindoFS 是阿里云针对云上存储定制的自研大数据存储服务，完全兼容 Hadoop 文件系统接口，给客户带来更加灵活、高效的计算存储方案，目前已验证支持阿里云 EMR 中所有的计算服务和引擎：Spark、Flink、Hive、MapReduce、Presto、Impala 等。Jindo FS 有两种使用模式，块存储模式和缓存模式。

JindoFS是基于阿里云对象存储OSS，为开源大数据生态构建的Hadoop文件系统（HCFS）。

JindoFS提供兼容对象存储的纯客户端模式（SDK）和缓存模式（Cache），以支持与优化Hadoop和Spark生态大数据计算对OSS的访问；提供块存储模式（Block），以充分利用OSS的海量存储能力和优化文件系统元数据的操作。

JindoFS 内部可以将数据分为以下集中，热数据，温数据，冷数据，低频数据，归档数据。

数据类型	描述
热数据	本地存在备份数据，且数据处于Pin的状态，OSS数据处于标准存储
温数据	本地存在备份数据，OSS数据处于标准存储，缺省状态
冷数据	本地不存在备份数据，OSS数据处于标准存储
低频数据	本地不存在备份数据，OSS数据处于低频类型存储
归档数据	本地不存在备份数据，OSS数据处于归档类型存储

JindoFS纯客户端模式为Hive和Spark等计算框架提供了访问阿里云OSS及其各种操作的优化，类似Hadoop社区的OSS FileSystem或S3A FileSystem。此模式不改变文件或对象在OSS上的组织方式，文件还是保存在OSS上，JindoFS只是提供面向Hadoop生态的客户端连接、扩展、适配和优化访问。您可以使用此模式，上传JindoFS SDK的JAR包至组件的classpath目录，简单易用，无需部署分布式服务。

脚本语言

Apache Pig

Apache Pig是一个用来分析大数据集的平台，它由两部分组成：一部分是用于表达数据分析程序的高级脚本语言，另一部分是用于评估分析程序的基本工具。目前来看，Pig主要用于离线数据的批量处理应用场景。

Pig是Hadoop数据操作的客户端是一个数据分析引擎，采用了一定的语法操作HDFS中的数据（Pig应该说是一种语言，有人说Pig是类SQL的语言我这里只能说它的功能类似Sql语言和数据库的关系，而且这里的Sql更像是PLSQL而不是标准SQL，Hadoop中更像标准Sql的应该是Hive或者叫HiveQL），它的语言比较像Shell脚本，可以嵌入Hadoop的JAVA程序中，从而达到简化代码的功能，Pig的脚本叫Pig Latin，之所以说Pig是一个数据分析引擎，是因为Pig相当于一个翻译器，将Pig Latin语句翻译成MapReduce程序，而Pig Latin语句是一种用于处理大规模数据的脚本语言。