大数据分析的基本内容包括:
- 数据管理
- 语义引擎构建
- 数据挖掘
- 预测性分析
- 数据可视化分析
- 人工智能学习
大数据分析三个维度
- 数据的类型
- 结构化、半结构化、非结构化
- 数据运维
- 获取、预处理、表达、
- 模拟、推理、可视化
- 挑战性
大数据与数学地球科学的核心应用技术
- 高维数据降维
- 哈希算法
- 主成分分析(Principal components analysis, PCA)
- 聚类分析
两个集合间的映射关系函数, 在集合A里的一条记录去查找集合B中的对应记录。
- 机器学习
- 有监督学习
- 聚类、关联规则挖掘、离群点检测
- 无监督学习
深度学习是的是机器学习的子集, 即多层神经网络的方法。深度学习的训练模型往往需要海量数据作为支撑。
- 图像数据处理
- 无限数据流挖掘
- 关联规则算法与推荐系统
- 人工智能地质学等
迁移学习
迁移学习的基本思路是利用预训练模型, 即已经通过现成的数据集训练好的模型。
- 基于迁移学习的定义中源领域和目标领域D和任务T的不同, 迁移学习可以分成三类:
- 推导迁移学习 (inductive transfer learning),给定源领域Ds和源领域学习任务Ts、目标领域Dt和目标领域任务Tt的情况, 且Ts不等于Tt, 情况下;推导迁移学习使用源领域Ds和Ts中的知识提升或优化目标领域Dt中目标预测函数ft (.) 的学习效果。
- 转导迁移学习 (tranductive transfer learning),给定源领域Ds和源领域学习任务Ts、目标领域Dt和目标领域任务Tt的情况, 且Ts等于Tt、Ds不等于Dt, 情况下;转导迁移学习使用源领域Ds和Ts中的知识提升或优化目标领域Dt中目标预测函数ft (.) 的学习效果。此外, 模型训练时, 目标领域Dt中必须提供一些无标记的数据。
- 无监督迁移学习 (unsupervised transfer learning),给定源领域Ds和源领域学习任务Ts、目标领域Dt和目标领域任务Tt的情况, 且Ts不等于Tt、标签空间Yt和Ys不可观测, 情况下;转导迁移学习使用源领域Ds和Ts中的知识提升或优化目标领域Dt中目标预测函数ft (.) 的学习效果。在无监督迁移学习中, 目标任务与源任务不同但却相关。无监督迁移学习主要解决目标领域中的无监督学习问题, 类似于传统的聚类、降维和密度估计等。
流数据的计算
- 点查询、范围查询、内积查询、分位数计算、频繁项计算。
- 可有数据流模型 (data stream model) 、
- 滑动窗口模型 (sliding window model)
- n-of-N模型
推荐系统 (Recommender systems)
- 基于关联规则推荐
- 基于知识推荐
- 基于内容推荐
- 协同过滤推荐
- 基于效用推荐
- 组合推荐
🚩推荐系统 (Recommender systems)
- 基于关联规则推荐
- 基于知识推荐
- 基于内容推荐
- 协同过滤推荐
- 基于效用推荐
- 组合推荐