机器学习
机器学习数据特征
- 数据分布行性
- 集中趋势
- 分布离散程度
- 数据分布偏态与峰度
众数、中位数、算术平均数(简单平均数、加权算术平均数)、调和平均数、几何平均数
异众比率、极差、四分位差、平均数、方差和标准差、相对离散程度
动差法、偏态及其测度
- 数据相关性
- 数据聚类性
- K-Means、K-Medoids、
- 数据主成分分析
- 数据动态性
- 数据可视化
机器学习分类算法
- 数据清洗和特征选择
- 决策树、随机森林
- SVM(支持向量机)
- 聚类算法
- K-Means聚类算法
- 层次聚类算法
- SOM据类算法
- FCM聚类算法
从输入空间(n维)到输出平面(2维)
- EM算法(Expectation Maximization Algorithm)
- 贝叶斯算法
- 隐马尔可夫模型
- LDA主题模型
- 人工网络神经
- 人工神经网络
- BP神经网络
- KNN算法(K近邻分类,K-nearest Neighbor Classification)
机器学习Python开源项目
- SKLearn
包含分类、回归、无监督、数据降维、数据预处理
- TensorFlow
采用数据流图(Data Flow Graphs) 节点(Node)、线(Edge)、张量(Tensor)
- Theano
定义、优化、求值数学表达式,适用于多维数组
- Caffe
主要应用在视频、图像处理
- Gensim
从文档抽取语义主题,算法包括LSA(LatentSemantic Analysis)、LDA(Latent Dirichlet Allocation)、RP(Random Projections)
- Pylearn2
基于Theano
- Shogun
特别支持向量机SVM
- Chainer
- NuPIC
AI算法平台,核心是一个算法,即HTM(Hierarchical Temporal Memory)算法
- Neon
深度学习库
- Nilearn
将机器学习、模式识别、多变量分析应用在神经影像数据,一般用于处理核共振图像、静息状态或者基于体素的形态学分析
- Orange3
数据挖掘和可视化工具
- PyMC与PyMC3
贝叶斯统计模型和马可夫链蒙塔卡洛采样工具
- pyBrain
- Fuel
- PyMVPA
- Annoy
- Deap
- Pattern
- Requests
- Seaborn
Kaggle平台机器学习实战
PaddlePaddle平台机器学习实战
百度推出的深度学习平台
PaddlePaddle平台机器学习实战
Github例子