[發明專利]基于多層級標識的端到端語音識別模型及建模方法在審
| 申請號: | 202110642751.3 | 申請日: | 2021-06-09 |
| 公開(公告)號: | CN113160803A | 公開(公告)日: | 2021-07-23 |
| 發明(設計)人: | 唐健;胡宇晨;戴禮榮 | 申請(專利權)人: | 中國科學技術大學 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/16;G10L15/22;G10L15/26 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 孫蕾 |
| 地址: | 230026 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 多層 標識 端到端 語音 識別 模型 建模 方法 | ||
1.一種基于多層級標識的端到端語音識別建模方法,其特征在于,包括解碼推論,所述解碼推論采用后推理算法,所述后推理算法包括:
對應細粒度文本序列的模型產生后驗概率輸出序列
所述輸出序列能夠唯一對應出粗粒度子序列計算模型生成所述粗粒度子序列的對數似然值,并以此作為現有預測輸出序列的交叉驗證;
依據以上兩步計算獲得似然概率得分對于現有解碼路徑進行裁剪,保證搜索路徑控制在束寬度范圍內。
2.根據權利要求1所述的建模方法,其特征在于,所述后推理算法的核心在于,在解碼推論階段使用序列間對齊映射信息。
3.根據權利要求1所述的建模方法,其特征在于,在所述交叉驗證的過程中并未生成新的解碼路徑,而是從另一個角度對于現有路徑輸出結果進行得分的重排序。
4.根據權利要求1所述的建模方法,其特征在于,每條解碼路徑的得分增量均由一個細粒度對數似然概率得分和多個粗粒度對數似然概率得分構成。
5.一種由權利要求1-4任一項所述的建模方法所得到的端到端語音識別模型,其特征在于,所述語音識別模型包括交互解碼器,所述交互解碼器包括字符模塊、交互模塊、子詞隱層模塊和子詞分類模塊;其中,
所述字符模塊用于建模字符子序列的輸出預測并為后續運算過程提供字符歷史狀態
所述交互模塊用于融合字符狀態和子詞狀態,并使用融合后的交互狀態作為交互注意力模塊的計算。
6.根據權利要求5所述的語音識別模型,其特征在于,所述字符模塊包括字符注意力模塊計算、循環神經網絡層和全連接層;所述字符模塊的輸入是字符歷史輸出的信息表征以及編碼器輸出序列
7.根據權利要求5所述的語音識別模型,其特征在于,所述交互模塊包括交互注意力機制與循環神經網絡層;所述交互模塊的輸入是字符歷史狀態、子詞狀態以及編碼器輸出序列
8.根據權利要求5所述的語音識別模型,其特征在于,所述子詞隱層模塊的輸入是子詞歷史輸出的信息表征以及編碼器輸出序列通過所述子詞注意力模塊和所述循環神經網絡層結構分別實現對子詞注意力向量的計算和子詞狀態的更新。
9.根據權利要求5所述的語音識別模型,其特征在于,所述子詞分類模塊的的輸入是交互狀態和子詞狀態,將所述交互狀態和子詞狀態分別通過全連接層實現對子詞的輸出預測,將兩項輸出分別稱為子詞輸出和輔助子詞輸出。
10.根據權利要求5所述的語音識別模型,其特征在于,所述交互解碼器生成三種類型的輸出:字符輸出、子詞輸出和輔助子詞輸出,這三類輸出對應三項交叉熵損失,三者共同構成了模型訓練的損失函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學技術大學,未經中國科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110642751.3/1.html,轉載請聲明來源鉆瓜專利網。





