基于前缀剪枝的大规模向量空间相似检索框架
刘健博1; 邓凌风2; 李文海2; 田野3
2024-04-28
发表期刊软件导刊
ISSN1672-7800
卷号23期号:06页码:92-97
摘要针对大规模文本集合下基于权重的相似性查询问题,提出一种支持前缀剪枝的高效检索框架。首先给出向量空间模型下相似性及其带权前缀定义,理论证明了带权前缀剪枝的正确性;然后,面向大规模文本查询,提出一种新的倒排索引结构,利用索引叶节点维护记录的前缀权重,并基于该索引构建高效的相似检索算法;最后,在TF/IDF权重策略下证明该方法能够有效支持大规模带权相似检索,结果表明其查询效率较Lucene的归并验证策略提升了5倍以上。
关键词前缀剪枝 TF/IDF 向量空间 倒排索引 信息检索 数据库
URL查看原文
语种中文
资助项目武汉市重点研发计划项目(2023010402040006);
原始文献类型学术期刊
文献类型期刊论文
条目标识符http://ir.library.ouchn.edu.cn/handle/39V7QQFX/170012
专题国家开放大学湖北分部
通讯作者田野
作者单位1.武汉数博科技有限责任公司;
2.武汉大学计算机学院;
3.湖北开放大学软件工程学院
通讯作者单位国家开放大学湖北分部
推荐引用方式
GB/T 7714
刘健博,邓凌风,李文海,等. 基于前缀剪枝的大规模向量空间相似检索框架[J]. 软件导刊,2024,23(06):92-97.
APA 刘健博,邓凌风,李文海,&田野.(2024).基于前缀剪枝的大规模向量空间相似检索框架.软件导刊,23(06),92-97.
MLA 刘健博,et al."基于前缀剪枝的大规模向量空间相似检索框架".软件导刊 23.06(2024):92-97.
条目包含的文件
条目无相关文件。
个性服务
查看访问统计
谷歌学术
谷歌学术中相似的文章
[刘健博]的文章
[邓凌风]的文章
[李文海]的文章
百度学术
百度学术中相似的文章
[刘健博]的文章
[邓凌风]的文章
[李文海]的文章
必应学术
必应学术中相似的文章
[刘健博]的文章
[邓凌风]的文章
[李文海]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。