采用语义一致性编码网络的跨模态语音关键词检索
齐梅; 刘则芬; 樊浩; 李升
2022
发表期刊宜宾学院学报
ISSN1671-5365
卷号22期号:12页码:1-11
摘要针对跨模态的语音-文本检索框架中的语义特征判别性不足问题,为了缩小语音和文本之间的异质性语义差距,提升检索精度,提出采用语义一致性编码神经网络(Semantics-Consistent Coding Network, SCCN)的跨模态语音关键词检索方法:分别利用梅尔倒谱系数特征(Mel-frequency cepstrum, MFCC)提取语音特征、利用BERT提取文本特征,搭建深度卷积神经网络,联合双重损失(语义一致性损失和检索损失)函数构造语义编码网络模型,提取语音和文本的共享特征获得一致性语义特征表达,同时考虑语音关键词检索任务的实时性需求,最后将检索任务视为多分类任务,通过余弦距离计算语义向量之间的距离,快速匹配检索结果。在公共数据集上的实验测试,取得了超过基线方法7%的精度,验证了SCCN方法有效性。
关键词语义一致性特征 编码网络 语音关键词 跨模态检索 双重损失函数
DOI10.19504/j.cnki.issn1671-5365.2022.12.02
URL查看原文
语种中文
资助项目安徽省高校自然科学研究重点项目(KJ20211255);安徽开放大学青年研究项目(QN202111)
原始文献类型学术期刊
文献类型期刊论文
条目标识符http://ir.library.ouchn.edu.cn/handle/39V7QQFX/26971
专题国家开放大学安徽分部
作者单位安徽开放大学信息与建筑工程学院
第一作者单位国家开放大学安徽分部
第一作者的第一单位国家开放大学安徽分部
推荐引用方式
GB/T 7714
齐梅,刘则芬,樊浩,等. 采用语义一致性编码网络的跨模态语音关键词检索[J]. 宜宾学院学报,2022,22(12):1-11.
APA 齐梅,刘则芬,樊浩,&李升.(2022).采用语义一致性编码网络的跨模态语音关键词检索.宜宾学院学报,22(12),1-11.
MLA 齐梅,et al."采用语义一致性编码网络的跨模态语音关键词检索".宜宾学院学报 22.12(2022):1-11.
条目包含的文件
条目无相关文件。
个性服务
查看访问统计
谷歌学术
谷歌学术中相似的文章
[齐梅]的文章
[刘则芬]的文章
[樊浩]的文章
百度学术
百度学术中相似的文章
[齐梅]的文章
[刘则芬]的文章
[樊浩]的文章
必应学术
必应学术中相似的文章
[齐梅]的文章
[刘则芬]的文章
[樊浩]的文章
相关权益政策
暂无数据
收藏/分享
相关推荐
基于多方向空间词袋模型的物体识别
几何系数赋权纹理特征的小样本人脸表情识别
基于三角模糊数-TOPSIS模型的省域社区教育发展成效评价实证研究
基于WebSocket的动态人脸识别系统构建
基于微服务架构和中台技术的非学历培训平台建设
基于局部投影WGC特征的在线情感识别
WGC特征描述的人脸表情识别
基于PDCA思想的中职学校教师素质提高计划培训程式
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。