[發明專利]統一中英混合文本生成和語音識別的端到端系統有效
| 申請號: | 202110777611.7 | 申請日: | 2021-07-09 |
| 公開(公告)號: | CN113284485B | 公開(公告)日: | 2021-11-09 |
| 發明(設計)人: | 陶建華;張帥;易江燕 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/02;G10L15/183;G10L15/26 |
| 代理公司: | 北京華夏泰和知識產權代理有限公司 11662 | 代理人: | 孫劍鋒;李永葉 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 統一 混合 文本 生成 語音 識別 端到端 系統 | ||
1.一種統一中英混合文本生成和語音識別的端到端系統,其特征在于,包括:
聲學編碼器、音素編碼器、判別器和解碼器;所述音素編碼器和所述判別器構成生成對抗網絡,所述音素編碼器作為所述生成對抗網絡的生成器,所述判別器為所述生成對抗網絡的判別器,所述聲學編碼器作為所述生成對抗網絡的真實數據輸入,以這種對抗生成網絡來促使音素編碼器輸出的音素編碼表示的分布接近聲學編碼器輸出的聲學編碼表示,所述解碼器將所述聲學編碼表示和所述音素編碼表示融合,得到解碼表示,再將所述解碼表示輸入到softmax函數得到概率最大的輸出目標;
所述系統還包括,語音特征提取模塊和聲學特征序列卷積降采樣模塊;
所述語音特征提取模塊:語音波形分幀處理,將連續的語音波形點分割成固定長度的短時音頻幀,并對所述短時音頻幀提取fbank聲學特征,將所述聲學特征的序列輸出到所述聲學特征序列卷積降采樣模塊;
所述聲學特征序列卷積降采樣模塊對聲學特征序列進行卷積降采樣處理,并進一步編碼,具體方法包括:
使用多個2維卷積核對所述聲學特征序列進行卷積操作,通過設置卷積操作的步長來控制降采樣的比例,并將卷積操作后的聲學特征序列輸出到所述聲學編碼器;
所述聲學編碼器由多個結構相同的基于多頭自注意力的模塊連接而成;兩個基于多頭自注意力的模塊之間由殘差連接;
所述基于多頭自注意力的模塊包括:兩個子部分,第一子部分是多頭自注意力層,后面接第二子部分,為全連接映射層,每個子部分進行層歸一化操作;所述多頭自注意力層和全連接映射層中間進行殘差連接;
所述系統還包括,標注目標序列的高維表示模塊,將所述語音波形對應的標注目標文本進行詞嵌入表示,將所述詞嵌入表示輸入所述基于多頭自注意力的模塊,得到目標序列的高維表示,該高維表示作為查詢向量;所述基于多頭自注意力的模塊與所述聲學編碼器的基于多頭自注意力的模塊結構相同;
具體的方法為:
使用詞嵌入矩陣將所述標注目標文本表示為目標文本連續特征向量;
對目標文本連續特征向量增加位置編碼信息,建模特征序列的時間先后順序信息,得到目標文本位置編碼序列;
將所述目標文本位置編碼序列輸入所述基于多頭自注意力的模塊得到目標序列的高維表示;
所述解碼器將所述聲學編碼表示和所述音素編碼表示融合,得到解碼表示的具體方法為:
將聲學編碼器輸出的聲學編碼表示和音素編碼器輸出的音素編碼表示輸入到解碼器中,作為待查詢的聲學鍵和聲學值集合,音素鍵和音素值集合;
應用所述查詢向量對聲學鍵集合和音素鍵集合進行逐元素計算余弦距離,根據距離的大小得到聲學的注意力分數和音素的注意力分數;
使用所述聲學的注意力分數對聲學值集合進行加權平均,得到聲學上下文向量表示;
使用所述音素的注意力分數對音素值集合進行加權平均,得到音素上下文向量表示;
將聲學上下文向量表示和音素上下文向量表示通過全連接映射層進行維度轉換,得到最終的解碼表示。
2.根據權利要求1所述的統一中英混合文本生成和語音識別的端到端系統,其特征在于,所述將卷積操作后的聲學特征序列輸出到所述聲學編碼器之前還包括:對卷積操作后的聲學特征序列增加位置編碼信息,建模卷積操作后的聲學特征序列的時間先后順序信息;
所述系統還包括,音素嵌入模塊,將音素序列使用詞嵌入矩陣轉換為連續的音素特征向量表示,并將音素特征向量表示輸出到所述音素編碼器;
所述將音素特征向量表示輸出到所述音素編碼器之前還包括:對連續的音素特征向量增加位置編碼信息,建模連續的音素特征向量的時間先后順序信息。
3.根據權利要求1所述的統一中英混合文本生成和語音識別的端到端系統,其特征在于,所述音素編碼器由多個結構相同的基于多頭自注意力的模塊連接而成;兩個基于多頭自注意力的模塊之間由殘差連接;
所述基于多頭自注意力的模塊包括:兩個子部分,第一子部分是多頭自注意力層,后面接第二子部分,為全連接映射層,每個子部分進行層歸一化操作;所述多頭自注意力層和全連接映射層中間進行殘差連接。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110777611.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:氟非尼酮在制備治療急性肺損傷藥物中的應用
- 下一篇:檢查系統及方法





