| Web瑕疵文本去除和有效词频估算方法研究 |
| 邢计亮
|
| 2014-02-28
|
发表期刊 | 科技通报
 |
ISSN | 1001-7119
|
卷号 | 30期号:02页码:59-61+64 |
摘要 | 通过研究Deep Web数据库的集成及词频数准确估算问题,提出Deep Web数据库三层集成构建体系和一种有效估算Deep Web数据库的大小和词频关系的方法,可以准确有效地估算Deep Web数据库中的信息数据大小词频数。实现了对Deep Web数据库宏观处理。对文本特征提取算法进行研究,研究了瑕疵文本去除率(去伪)和有用文本提取率(存真)等性能比较指标,得到算法瑕疵文本去除率相对传统算法是最优秀的,然而其存真的有用文本提取率UR相对较低。仿真实验表明:当数据集样本数大于5000时,词频趋于收敛稳定,取得5000样本数据集为有效最小值,所得到的趋于稳定后得到词频结果与实际词频结果是基本一致的。研究结果对Deep Web数据库的宏观统计决策和单个Deep Web数据库的查询效率问题有重要指导作用。 |
关键词 | Web
数据库
词频
估算
|
DOI | 10.13774/j.cnki.kjtb.2014.02.041
|
URL | 查看原文
|
收录类别 | 北大核心
|
语种 | 中文
|
原始文献类型 | 学术期刊
|
文献类型 | 期刊论文
|
条目标识符 | http://ir.library.ouchn.edu.cn/handle/39V7QQFX/71950
|
专题 | 国家开放大学河北分部
|
作者单位 | 邢台广播电视大学
|
第一作者单位 | 国家开放大学河北分部
|
第一作者的第一单位 | 国家开放大学河北分部
|
推荐引用方式 GB/T 7714 |
邢计亮. Web瑕疵文本去除和有效词频估算方法研究[J].
科技通报,2014,30(02):59-61+64.
|
APA |
邢计亮.(2014).Web瑕疵文本去除和有效词频估算方法研究.科技通报,30(02),59-61+64.
|
MLA |
邢计亮."Web瑕疵文本去除和有效词频估算方法研究".科技通报 30.02(2014):59-61+64.
|
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论