| 一种基于改进互信息的文本分类方法 |
| 董露露
|
| 2017-11-20
|
发表期刊 | 合肥师范学院学报
|
ISSN | 1674-2273
|
卷号 | 35期号:06页码:14-19 |
摘要 | 特征降维是文本分类的关键步骤之一。传统互信息特征选择方法只关注了文档频,未考虑词频因素,并且忽视了负相关特征对文本分类的重要作用,导致其在不平衡语料集上的分类效果较差。针对传统互信息方法存在的不足,提出一种改进的互信息特征选择方法,综合考虑词频因素及正、负相关特征对文本分类的影响,引入平均词频率和绝对值最大因子,克服传统互信息倾向于选择低频词、忽视负相关特征的缺陷。在不平衡语料集上的实验结果表明,改进的互信息能够有效提高文本分类性能。 |
关键词 | 文本分类
特征选择
不平衡数据集
互信息
|
URL | 查看原文
|
语种 | 中文
|
资助项目 | 安徽省教育厅自然科学基金重点项目(KJ2014A081);安徽省级优秀青年基金重点项目(2013SQRL097ZD)
|
原始文献类型 | 学术期刊
|
文献类型 | 期刊论文
|
条目标识符 | http://ir.library.ouchn.edu.cn/handle/39V7QQFX/57231
|
专题 | 国家开放大学安徽分部
|
作者单位 | 安徽广播电视大学安徽继续教育网络园区管理中心
|
第一作者单位 | 国家开放大学安徽分部
|
第一作者的第一单位 | 国家开放大学安徽分部
|
推荐引用方式 GB/T 7714 |
董露露. 一种基于改进互信息的文本分类方法[J].
合肥师范学院学报,2017,35(06):14-19.
|
APA |
董露露.(2017).一种基于改进互信息的文本分类方法.合肥师范学院学报,35(06),14-19.
|
MLA |
董露露."一种基于改进互信息的文本分类方法".合肥师范学院学报 35.06(2017):14-19.
|
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论