一种基于页面赋权的网页内容提取方法

doi:10.13877/j.cnki.cn22-1284.2021.10.003

	一种基于页面赋权的网页内容提取方法
	余杨奎 1; 王旅 1; 李婉茹 1; 程振林 1; 刘洁 2
	2021-10-20
发表期刊	通化师范学院学报
ISSN	1008-7974
卷号	42 期号:10 页码:20-28
摘要	提出一种基于页面赋权的网页内容提取方法,准确地提取WEB内容存储到数据库中.提取方法分为两部分,一是带权的前置搜索算法,将正则表达式与广度优先搜索策略进行结合,建立针对网页页面URL与链接的规则筛选工具;二是利用基于模板的网页内容提取思想,设计网页内容路径提取模板算法,通过设定预获取样本集,识别出目标网页内容页面,并从这些URL集合中选择出基准页面URL,将该基准页面URL中的内容信息作为提取的目标信息,提取节点路径,并构建路径模板,完成网页内容提取.传统算法构建的爬虫系统提取内容精确度是81.3%,该算法达到86.9%.算法提取过程中借助正则表达式筛选环节过滤掉一部分无关目标的WEB页面内容,精确度高于传统系统.
关键词	WEB页面模板技术页面赋权正则表达式
DOI	10.13877/j.cnki.cn22-1284.2021.10.003
URL	查看原文
语种	中文
资助项目	2020年度广东远程开放教育科研基金项目（YJ2009）;2019年度湛江开放大学系统科研项目（X201901）
原始文献类型	学术期刊
文献类型	期刊论文
条目标识符	http://ir.library.ouchn.edu.cn/handle/39V7QQFX/149715
专题	国家开放大学广东分部
通讯作者	刘洁
作者单位	1.广东开放大学湛江分校; 2.长春中医药大学医药信息学院
第一作者单位	国家开放大学广东分部
第一作者的第一单位	国家开放大学广东分部
推荐引用方式 GB/T 7714	余杨奎,王旅,李婉茹,等. 一种基于页面赋权的网页内容提取方法[J]. 通化师范学院学报,2021,42(10):20-28.
APA	余杨奎,王旅,李婉茹,程振林,&刘洁.(2021).一种基于页面赋权的网页内容提取方法.通化师范学院学报,42(10),20-28.
MLA	余杨奎,et al."一种基于页面赋权的网页内容提取方法".通化师范学院学报 42.10(2021):20-28.