基于对数似然比的中文文本分类特征选择研究
梁伍七1; 李斌1; 许磊1; 江克勤2
2018-03-15
发表期刊安庆师范大学学报(自然科学版)
ISSN1007-4260
卷号24期号:01页码:45-50
摘要在向量空间模型的中文文本分类系统中,多数传统的特征选择算法忽视低频单词对分类的正面贡献,互信息特征选择过分放大低频单词对分类的贡献。针对这一问题,通过引入对数似然比统计量,提出对数似然比特征选择算法。与互信息算法相比,低频单词对分类的贡献没有过分放大;与卡方算法相比,低频单词对分类的贡献计算更为准确。算法在考虑低频单词对分类结果产生正面影响的同时,能较好地控制其对分类产生的负面影响。采用KNN(K Nearest Neighbor)分类方法,特征选择选取对数似然比和传统特征选择算法,实验结果表明,对数似然比特征选择算法能够提高分类器的总体性能。
关键词模式识别 对数似然比 特征选择 文本分类 向量空间模型 KNN分类
DOI10.13757/j.cnki.cn34-1328/n.2018.01.012
URL查看原文
语种中文
资助项目安徽省高校自然科学研究项目(KJ2016A111)
原始文献类型学术期刊
文献类型期刊论文
条目标识符http://ir.library.ouchn.edu.cn/handle/39V7QQFX/54798
专题国家开放大学安徽分部
作者单位1.安徽广播电视大学信息与工程学院;
2.安庆师范大学计算机与信息学院
第一作者单位国家开放大学安徽分部
第一作者的第一单位国家开放大学安徽分部
推荐引用方式
GB/T 7714
梁伍七,李斌,许磊,等. 基于对数似然比的中文文本分类特征选择研究[J]. 安庆师范大学学报(自然科学版),2018,24(01):45-50.
APA 梁伍七,李斌,许磊,&江克勤.(2018).基于对数似然比的中文文本分类特征选择研究.安庆师范大学学报(自然科学版),24(01),45-50.
MLA 梁伍七,et al."基于对数似然比的中文文本分类特征选择研究".安庆师范大学学报(自然科学版) 24.01(2018):45-50.
条目包含的文件
条目无相关文件。
个性服务
查看访问统计
谷歌学术
谷歌学术中相似的文章
[梁伍七]的文章
[李斌]的文章
[许磊]的文章
百度学术
百度学术中相似的文章
[梁伍七]的文章
[李斌]的文章
[许磊]的文章
必应学术
必应学术中相似的文章
[梁伍七]的文章
[李斌]的文章
[许磊]的文章
相关权益政策
暂无数据
收藏/分享
相关推荐
基于JDBC的Web应用程序数据库连接技术研究
基于翻转课堂的完全线上教学模式探索与实践——以Linux网络操作系统课程为例
基于JWT的分布式系统认证授权机制设计和实现
基于SOAP消息的WEB服务模型及其应用研究
数据挖掘中的模糊聚类分析及其应用
基于XML文档的数据绑定技术浅析
基于Web服务的分布式应用集成模型及其实现
番茄果实硬度与相关性状间的相关及通径分析
网上教学支持服务的研究实践及效果评价
基于类别的CHI特征选择方法
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。