BookRecord2:Python数据分析与数据化运营
📌

BookRecord2:Python数据分析与数据化运营

Tags
Created
Dec 9, 2021 03:19 PM
Last Edited
Last updated December 11, 2021
Property

科学计算库

Numpy
Scipy
Pandas

机器学习库

SKLearn
XHBoost

自然语言处理库

结巴分词
Gensim

数据库连接

mysql
mongodb

HTML处理库

Beautiful Soup

图形化展示库

Matplotlib
pyecharts
 

图像处理库

PIL和Pillow
OpenCV
缩放、旋转、透视变换、图像色彩模式转换、边缘检测、二值化操作、平滑处理、形态学处理
 

OCR工具

Tesseract-ocr

机器学习框架

TensorFlow
 

数据库

  1. 键值数据库
    1. Redis
    2. Tokyo Cabinet
    3. Voldemort
  1. 文档数据库
    1. MongoDB
    2. CouchDB
  1. 列式数据库
    1. Cassandra
    2. HBase
    3. Riak
  1. 图数据库
    1. Neo4J
    2. InfoGrid
    3. Infinite Graph
    4.  

流式数据

用户行为数据
机器数据流
 
notion image
notion image
 

工具🧰

Google BigQuery
Google Analytics API
SAS
 
数据清洗

数据降维

  1. PCA主成分分析
  1. FA因子分析
  1. LDA线性判别分析
  1. ICA独立成分分析
    1. 盲源分离
    2. 图像识别,去除噪声
    3. 通信
    4. 特征提取和降维
    5. 自然信息处理,地震声音分离
    6.  

样本不均衡

解决:
  1. 过采样(上采样)
  1. 欠采样(下采样)
notion image
 
应对高维数据聚类的方法:降维、子空间聚类
 

异常检测分析

  • 基于异常检测方法
    • 泊松分布
    • 正态分布
  • 基于距离异常监测方法
    • K均值
  • 基于密度的利群监测
    • LOF
  • 基于偏移异常
  • 基于时间序列的异常点监测
 

Pipeline和FeatureUnion复合数据工作流

 
notion image