Web瑕疵文本去除和有效词频估算方法研究
邢计亮
2014-02-28
发表期刊科技通报
ISSN1001-7119
卷号30期号:02页码:59-61+64
摘要通过研究Deep Web数据库的集成及词频数准确估算问题,提出Deep Web数据库三层集成构建体系和一种有效估算Deep Web数据库的大小和词频关系的方法,可以准确有效地估算Deep Web数据库中的信息数据大小词频数。实现了对Deep Web数据库宏观处理。对文本特征提取算法进行研究,研究了瑕疵文本去除率(去伪)和有用文本提取率(存真)等性能比较指标,得到算法瑕疵文本去除率相对传统算法是最优秀的,然而其存真的有用文本提取率UR相对较低。仿真实验表明:当数据集样本数大于5000时,词频趋于收敛稳定,取得5000样本数据集为有效最小值,所得到的趋于稳定后得到词频结果与实际词频结果是基本一致的。研究结果对Deep Web数据库的宏观统计决策和单个Deep Web数据库的查询效率问题有重要指导作用。
关键词Web 数据库 词频 估算
DOI10.13774/j.cnki.kjtb.2014.02.041
URL查看原文
收录类别北大核心
语种中文
原始文献类型学术期刊
文献类型期刊论文
条目标识符http://ir.library.ouchn.edu.cn/handle/39V7QQFX/71950
专题国家开放大学河北分部
作者单位邢台广播电视大学
第一作者单位国家开放大学河北分部
第一作者的第一单位国家开放大学河北分部
推荐引用方式
GB/T 7714
邢计亮. Web瑕疵文本去除和有效词频估算方法研究[J]. 科技通报,2014,30(02):59-61+64.
APA 邢计亮.(2014).Web瑕疵文本去除和有效词频估算方法研究.科技通报,30(02),59-61+64.
MLA 邢计亮."Web瑕疵文本去除和有效词频估算方法研究".科技通报 30.02(2014):59-61+64.
条目包含的文件
条目无相关文件。
个性服务
查看访问统计
谷歌学术
谷歌学术中相似的文章
[邢计亮]的文章
百度学术
百度学术中相似的文章
[邢计亮]的文章
必应学术
必应学术中相似的文章
[邢计亮]的文章
相关权益政策
暂无数据
收藏/分享
相关推荐
如何在建设新农村形势下发展我国农村职业教育
基于WEB环境下的自主式学习研究
新农村建设中农村成人教育面临的问题和对策
教学活动中如何用情感促进学生认知的发展
开放教育计算机专业形成性考核构成模式改革浅探
浅谈开放教育导学课的设计与实施
基于叠加编码的Web网页抓取路径损耗估计
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。