| 采用语义一致性编码网络的跨模态语音关键词检索 |
| 齐梅; 刘则芬; 樊浩; 李升
|
| 2022
|
发表期刊 | 宜宾学院学报
|
ISSN | 1671-5365
|
卷号 | 22期号:12页码:1-11 |
摘要 | 针对跨模态的语音-文本检索框架中的语义特征判别性不足问题,为了缩小语音和文本之间的异质性语义差距,提升检索精度,提出采用语义一致性编码神经网络(Semantics-Consistent Coding Network, SCCN)的跨模态语音关键词检索方法:分别利用梅尔倒谱系数特征(Mel-frequency cepstrum, MFCC)提取语音特征、利用BERT提取文本特征,搭建深度卷积神经网络,联合双重损失(语义一致性损失和检索损失)函数构造语义编码网络模型,提取语音和文本的共享特征获得一致性语义特征表达,同时考虑语音关键词检索任务的实时性需求,最后将检索任务视为多分类任务,通过余弦距离计算语义向量之间的距离,快速匹配检索结果。在公共数据集上的实验测试,取得了超过基线方法7%的精度,验证了SCCN方法有效性。 |
关键词 | 语义一致性特征
编码网络
语音关键词
跨模态检索
双重损失函数
|
DOI | 10.19504/j.cnki.issn1671-5365.2022.12.02
|
URL | 查看原文
|
语种 | 中文
|
资助项目 | 安徽省高校自然科学研究重点项目(KJ20211255);安徽开放大学青年研究项目(QN202111)
|
原始文献类型 | 学术期刊
|
文献类型 | 期刊论文
|
条目标识符 | http://ir.library.ouchn.edu.cn/handle/39V7QQFX/26971
|
专题 | 国家开放大学安徽分部
|
作者单位 | 安徽开放大学信息与建筑工程学院
|
第一作者单位 | 国家开放大学安徽分部
|
第一作者的第一单位 | 国家开放大学安徽分部
|
推荐引用方式 GB/T 7714 |
齐梅,刘则芬,樊浩,等. 采用语义一致性编码网络的跨模态语音关键词检索[J].
宜宾学院学报,2022,22(12):1-11.
|
APA |
齐梅,刘则芬,樊浩,&李升.(2022).采用语义一致性编码网络的跨模态语音关键词检索.宜宾学院学报,22(12),1-11.
|
MLA |
齐梅,et al."采用语义一致性编码网络的跨模态语音关键词检索".宜宾学院学报 22.12(2022):1-11.
|
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论