📌

BigFCM: Fast, precise and scalable FCM on hadoop

Classification
数据分析
Type
Journal Article
Magazine
Future Generation Computer Systems
Author
Nasser Ghadiri
Published
June 13, 2017
Rate
⭐⭐
Quick Note
聚类、模糊聚类
📌
摘要
  • 本文针对Hadoop分布式数据平台提出并设计了一种可扩展的Fuzzy C-Means (FCM)聚类方法BigFCM 。
  • BigFCM 的性能通过本研究开发的评估框架与 Apache Mahout K-Means 和 Fuzzy K-Means 进行了比较。使用包括 SUSY 和 HIGGS 在内的多千兆字节数据集的广泛评估表明,BigFCM 在保持聚类质量的同时具有可扩展性。
🍎
聚类
  • 分区聚类
  • 层次聚类
🍀
数据管理
  • 基于子样本大小的估计来改进初始化 [21]。在海量数据聚类领域,提出了三种方法:
      1. 基于采样的方法:在此类算法中,选择数据集的一个小子集,并在该子组上执行聚类 [22]
      1. 数据转换算法:在这些方法中,数据的结构被改变,以便可以更有效地处理它。这些方法主要用于基于图的结构 [24][25]
      1. ingle-pass算法:在这些类型的算法中,数据被分成几个子集,算法加载每个块,对其进行聚类,并结合聚类结果。此类别中的算法属于以下子类别之一:一种增量聚类方法 [26] , [27]