摘要
HighLights
研究目标
研究内容
研究方法
- 根据所采用的特征形式,半结构化数据的分类方法可分为两种类型:基于结构的分类和基于结构和内容的分类。
结论
- 提出了一个半结构化数据分类框架,并分解了基于特征提取和模型构建的分类方法
- 将分类方法分为仅基于结构的方法和基于结构和内容的方法两种类型。
- 半结构化数据的三种表示模型:根标记树、向量空间模型和特征集模型。
- 在实际应用中,Web中的半结构化文档是高度动态的,其结构和内容会因各种Web应用程序而频繁变化。如何从动态半结构化数据中提取特征以及如何对动态半结构化数据进行分类是重要的研究方向。
- 将结构信息和内容集成到嵌入表示和卷积神经网络或其他用于半结构化数据分类的神经网络中。
讨论
解决的问题
正文
使用