[發(fā)明專利]基于注意力的弱監(jiān)督語音檢索方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202011550159.2 | 申請日: | 2020-12-24 |
| 公開(公告)號: | CN112685594B | 公開(公告)日: | 2022-10-04 |
| 發(fā)明(設計)人: | 張文林;胡恒博;閆紅剛;郝朝龍;邱澤宇;李喜坤;賀曉年 | 申請(專利權)人: | 中國人民解放軍戰(zhàn)略支援部隊信息工程大學;鄭州信大先進技術研究院 |
| 主分類號: | G06F16/632 | 分類號: | G06F16/632;G06F16/683;G06F40/284;G10L25/30 |
| 代理公司: | 鄭州大通專利商標代理有限公司 41111 | 代理人: | 周艷巧 |
| 地址: | 450000 河*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 注意力 監(jiān)督 語音 檢索 方法 系統(tǒng) | ||
本發(fā)明屬于語音檢索技術領域,特別涉及一種基于注意力的弱監(jiān)督語音檢索方法及系統(tǒng),方法包含:提取文本關鍵詞并轉換為關鍵詞特征向量,并對音頻數(shù)據(jù)進行特征提取獲取音頻特征向量;使用注意力機制將關鍵詞特征向量和音頻特征向量進行融合,獲取語音檢索特征向量;將語音檢索特征向量送入已訓練優(yōu)化的關鍵詞識別模塊識別,以檢測文本關鍵詞是否出現(xiàn)在語音數(shù)據(jù)中。本發(fā)明通過使用注意力機制來獲得融合文本特征向量和音頻特征向量的語音檢索特征向量,使用弱監(jiān)督標注數(shù)據(jù)即可訓練優(yōu)化識別模型,提升檢索效率和準確性。
技術領域
本發(fā)明屬于語音檢索技術領域,特別涉及一種基于注意力的弱監(jiān)督語音檢索方法及系統(tǒng)。
背景技術
語音檢索的主要任務是從海量的語音數(shù)據(jù)庫中找到感興趣的關鍵詞,并返回相應的位置。語音檢索常用的方法有基于大詞匯量連續(xù)語音識別的關鍵詞搜索技術和基于神經網絡的關鍵詞搜索方法。使用基于大詞匯量連續(xù)語音識別的關鍵詞搜索技術進行語音檢索需要兩步。第一步是訓練一個大詞匯量連續(xù)語音識別系統(tǒng),并利用訓練好的系統(tǒng)將待搜索音頻進行解碼,生成對應的詞格(Word lattice)。第二步是將解碼器生成的待搜索音頻庫的詞格轉換成倒排索引,以便高效地進行搜索,得到關鍵詞的位置及相應的置信度?;谏窠浘W絡的關鍵詞搜索方法常用的有基于RNN-Transducer的使用注意力機制進行關鍵詞搜索的方法,該方法在使用 RNN-Transducer進行語音識別的基礎上,使用了注意力機制使得RNN-Transducer將識別重心轉移到需要進行識別的關鍵詞上面從而進行關鍵詞檢索。但以上兩種方法都需要較多的訓練標注數(shù)據(jù)。基于大詞匯量連續(xù)語音識別的關鍵詞搜索技術所需要的標注數(shù)據(jù)是字符級別的,而基于RNN-Transducer的使用注意力機制進行關鍵詞搜索的方法所需要的標注數(shù)據(jù)是 phoneme級別的。對語音進行字符級別的標注需要耗費大量的資源,因此標注數(shù)據(jù)不足會成為了語音檢索中很現(xiàn)實的一個問題,對注意力機制的使用方法不夠豐富。
發(fā)明內容
為此,本發(fā)明提供一種基于注意力的弱監(jiān)督語音檢索方法及系統(tǒng),通過使用注意力機制來獲得融合文本特征向量和音頻特征向量的語音檢索特征向量,使用弱監(jiān)督標注數(shù)據(jù)即可訓練優(yōu)化識別模型,提升檢索效率和準確性。
按照本發(fā)明所提供的設計方案,一種基于注意力的弱監(jiān)督語音檢索方法,包含如下內容:
提取文本關鍵詞并轉換為關鍵詞特征向量,并對音頻數(shù)據(jù)進行特征提取獲取音頻特征向量;使用注意力機制將關鍵詞特征向量和音頻特征向量進行融合,獲取語音檢索特征向量;
將語音檢索特征向量送入已訓練優(yōu)化的關鍵詞識別模塊識別,以檢測文本關鍵詞是否出現(xiàn)在語音數(shù)據(jù)中。
作為本發(fā)明基于注意力的弱監(jiān)督語音檢索方法,進一步的,利用關鍵詞嵌入模塊將文本關鍵詞經過詞嵌入操作轉換來獲取關鍵詞特征向量。
作為本發(fā)明基于注意力的弱監(jiān)督語音檢索方法,進一步地,利用卷積循環(huán)神經網絡提取音頻數(shù)據(jù)的音頻特征向量,首先對輸入音頻數(shù)據(jù)進行分幀,對每幀取多維濾波器組特征并通過一階和二階差分來獲取每幀F(xiàn)Bank特征;將獲取到的FBank特征送入卷積循環(huán)神經網絡中,依次經過多次卷積、最大池化操作及雙向長短時記憶網絡及線性變換后獲取音頻特征向量。
作為本發(fā)明基于注意力的弱監(jiān)督語音檢索方法,進一步地,使用注意力機制將關鍵詞特征向量和音頻特征向量進行點積運算來表示兩個向量之間的相關性,通過向量融合來獲取語音檢索特征向量。
作為本發(fā)明基于注意力的弱監(jiān)督語音檢索方法,進一步地,向量融合中,利用關鍵詞特征向量分別對語音特征向量中向量元素進行內積運算,將內積運算結果經過softmax處理得到權重向量;將權重向量中每一個權重乘上對應的語音特征向量特征元素得到加權向量;將加權向量中的每列特征向量進行相加得到融合關鍵詞特征向量和語音特征向量的一個向量,將加權向量中的每行向量進行最大池化得到另一個向量;將該一個向量和另一個向量通過拼接獲取語音檢索特征向量,或者直接將這兩個向量作為語音檢索特征向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍戰(zhàn)略支援部隊信息工程大學;鄭州信大先進技術研究院,未經中國人民解放軍戰(zhàn)略支援部隊信息工程大學;鄭州信大先進技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011550159.2/2.html,轉載請聲明來源鉆瓜專利網。





