一种基于页面赋权的网页内容提取方法 | |
余杨奎1; 王旅1; 李婉茹1; 程振林1; 刘洁2 | |
2021-10-20 | |
发表期刊 | 通化师范学院学报 |
ISSN | 1008-7974 |
卷号 | 42期号:10页码:20-28 |
摘要 | 提出一种基于页面赋权的网页内容提取方法,准确地提取WEB内容存储到数据库中.提取方法分为两部分,一是带权的前置搜索算法,将正则表达式与广度优先搜索策略进行结合,建立针对网页页面URL与链接的规则筛选工具;二是利用基于模板的网页内容提取思想,设计网页内容路径提取模板算法,通过设定预获取样本集,识别出目标网页内容页面,并从这些URL集合中选择出基准页面URL,将该基准页面URL中的内容信息作为提取的目标信息,提取节点路径,并构建路径模板,完成网页内容提取.传统算法构建的爬虫系统提取内容精确度是81.3%,该算法达到86.9%.算法提取过程中借助正则表达式筛选环节过滤掉一部分无关目标的WEB页面内容,精确度高于传统系统. |
关键词 | WEB页面 模板技术 页面赋权 正则表达式 |
DOI | 10.13877/j.cnki.cn22-1284.2021.10.003 |
URL | 查看原文 |
语种 | 中文 |
资助项目 | 2020年度广东远程开放教育科研基金项目(YJ2009);2019年度湛江开放大学系统科研项目(X201901) |
原始文献类型 | 学术期刊 |
文献类型 | 期刊论文 |
条目标识符 | http://ir.library.ouchn.edu.cn/handle/39V7QQFX/149715 |
专题 | 国家开放大学广东分部 |
通讯作者 | 刘洁 |
作者单位 | 1.广东开放大学湛江分校; 2.长春中医药大学医药信息学院 |
第一作者单位 | 国家开放大学广东分部 |
第一作者的第一单位 | 国家开放大学广东分部 |
推荐引用方式 GB/T 7714 | 余杨奎,王旅,李婉茹,等. 一种基于页面赋权的网页内容提取方法[J]. 通化师范学院学报,2021,42(10):20-28. |
APA | 余杨奎,王旅,李婉茹,程振林,&刘洁.(2021).一种基于页面赋权的网页内容提取方法.通化师范学院学报,42(10),20-28. |
MLA | 余杨奎,et al."一种基于页面赋权的网页内容提取方法".通化师范学院学报 42.10(2021):20-28. |
条目包含的文件 | 条目无相关文件。 |
个性服务 |
查看访问统计 |
谷歌学术 |
谷歌学术中相似的文章 |
[余杨奎]的文章 |
[王旅]的文章 |
[李婉茹]的文章 |
百度学术 |
百度学术中相似的文章 |
[余杨奎]的文章 |
[王旅]的文章 |
[李婉茹]的文章 |
必应学术 |
必应学术中相似的文章 |
[余杨奎]的文章 |
[王旅]的文章 |
[李婉茹]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
相关推荐 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论