科学计算库
Numpy
Scipy
Pandas
机器学习库
SKLearn
XHBoost
自然语言处理库
结巴分词
Gensim
数据库连接
mysql
mongodb
HTML处理库
Beautiful Soup
图形化展示库
Matplotlib
pyecharts
图像处理库
PIL和Pillow
OpenCV
缩放、旋转、透视变换、图像色彩模式转换、边缘检测、二值化操作、平滑处理、形态学处理
OCR工具
Tesseract-ocr
机器学习框架
TensorFlow
数据库
- 键值数据库
- Redis
- Tokyo Cabinet
- Voldemort
- 文档数据库
- MongoDB
- CouchDB
- 列式数据库
- Cassandra
- HBase
- Riak
- 图数据库
- Neo4J
- InfoGrid
- Infinite Graph
流式数据
用户行为数据
机器数据流
工具🧰
Google BigQuery
Google Analytics API
SAS
数据清洗
数据降维
- PCA主成分分析
- FA因子分析
- LDA线性判别分析
- ICA独立成分分析
- 盲源分离
- 图像识别,去除噪声
- 通信
- 特征提取和降维
- 自然信息处理,地震声音分离
样本不均衡
解决:
- 过采样(上采样)
- 欠采样(下采样)
应对高维数据聚类的方法:降维、子空间聚类
异常检测分析
- 基于异常检测方法
- 泊松分布
- 正态分布
- 基于距离异常监测方法
- K均值
- 基于密度的利群监测
- LOF
- 基于偏移异常
- 基于时间序列的异常点监测