基于标题机器学习的网页分割方法 | |
李进生1; 乐惠骁2; 童名文2 | |
2018-06-15 | |
发表期刊 | 计算机科学
![]() |
ISSN | 1002-137X |
卷号 | 45期号:S1页码:583-587 |
摘要 | 针对已有网页分割方法都基于文档对象模型实现且实现难度较高的问题,提出了一种采用字符串数据模型实现网页分割的新方法。该方法通过机器学习获取网页标题的特征,利用标题实现网页分割。首先,利用网页行块分布函数和网页标题标签学习得到网页标题特征;然后,基于标题将网页分割成内容块;最后,利用块深度对内容块进行合并,完成网页分割。理论分析与实验结果表明,该方法中的算法具有O(n)的时间复杂度和空间复杂度,该方法对于高校门户、博客日志和资源网站等类型的网页具有较好的分割效果,并且可以用于网页信息管理的多种应用中,具有良好的应用前景。 |
关键词 | 网页分割 标题 行块分布函数 块深度 机器学习 |
URL | 查看原文 |
收录类别 | 北大核心 ; CSCD |
语种 | 中文 |
资助项目 | 教育部人文社科基金资助项目:数字化学习资源无障碍适配决策模型研究(15YJA880062)资助 |
原始文献类型 | 学术期刊 |
文献类型 | 期刊论文 |
条目标识符 | http://ir.library.ouchn.edu.cn/handle/39V7QQFX/54601 |
专题 | 国家开放大学武汉分部 |
作者单位 | 1.武汉市广播电视大学现代教育技术中心; 2.华中师范大学教育信息技术学院 |
第一作者单位 | 国家开放大学武汉分部 |
第一作者的第一单位 | 国家开放大学武汉分部 |
推荐引用方式 GB/T 7714 | 李进生,乐惠骁,童名文. 基于标题机器学习的网页分割方法[J]. 计算机科学,2018,45(S1):583-587. |
APA | 李进生,乐惠骁,&童名文.(2018).基于标题机器学习的网页分割方法.计算机科学,45(S1),583-587. |
MLA | 李进生,et al."基于标题机器学习的网页分割方法".计算机科学 45.S1(2018):583-587. |
条目包含的文件 | 条目无相关文件。 |
个性服务 |
查看访问统计 |
谷歌学术 |
谷歌学术中相似的文章 |
[李进生]的文章 |
[乐惠骁]的文章 |
[童名文]的文章 |
百度学术 |
百度学术中相似的文章 |
[李进生]的文章 |
[乐惠骁]的文章 |
[童名文]的文章 |
必应学术 |
必应学术中相似的文章 |
[李进生]的文章 |
[乐惠骁]的文章 |
[童名文]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
相关推荐 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论