基于标题机器学习的网页分割方法
李进生1; 乐惠骁2; 童名文2
2018-06-15
发表期刊计算机科学
ISSN1002-137X
卷号45期号:S1页码:583-587
摘要针对已有网页分割方法都基于文档对象模型实现且实现难度较高的问题,提出了一种采用字符串数据模型实现网页分割的新方法。该方法通过机器学习获取网页标题的特征,利用标题实现网页分割。首先,利用网页行块分布函数和网页标题标签学习得到网页标题特征;然后,基于标题将网页分割成内容块;最后,利用块深度对内容块进行合并,完成网页分割。理论分析与实验结果表明,该方法中的算法具有O(n)的时间复杂度和空间复杂度,该方法对于高校门户、博客日志和资源网站等类型的网页具有较好的分割效果,并且可以用于网页信息管理的多种应用中,具有良好的应用前景。
关键词网页分割 标题 行块分布函数 块深度 机器学习
URL查看原文
收录类别北大核心 ; CSCD
语种中文
资助项目教育部人文社科基金资助项目:数字化学习资源无障碍适配决策模型研究(15YJA880062)资助
原始文献类型学术期刊
文献类型期刊论文
条目标识符http://ir.library.ouchn.edu.cn/handle/39V7QQFX/54601
专题国家开放大学武汉分部
作者单位1.武汉市广播电视大学现代教育技术中心;
2.华中师范大学教育信息技术学院
第一作者单位国家开放大学武汉分部
第一作者的第一单位国家开放大学武汉分部
推荐引用方式
GB/T 7714
李进生,乐惠骁,童名文. 基于标题机器学习的网页分割方法[J]. 计算机科学,2018,45(S1):583-587.
APA 李进生,乐惠骁,&童名文.(2018).基于标题机器学习的网页分割方法.计算机科学,45(S1),583-587.
MLA 李进生,et al."基于标题机器学习的网页分割方法".计算机科学 45.S1(2018):583-587.
条目包含的文件
条目无相关文件。
个性服务
查看访问统计
谷歌学术
谷歌学术中相似的文章
[李进生]的文章
[乐惠骁]的文章
[童名文]的文章
百度学术
百度学术中相似的文章
[李进生]的文章
[乐惠骁]的文章
[童名文]的文章
必应学术
必应学术中相似的文章
[李进生]的文章
[乐惠骁]的文章
[童名文]的文章
相关权益政策
暂无数据
收藏/分享
相关推荐
智慧教育视阈下武汉市开放教育发展对策
数字化学习型城市评价指标体系框架的构建
基于终身学习视域下的数字化资源整合共享模式探索
在线开放课程平台运营模式研究
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。