[發明專利]解碼實現方法及裝置在審
| 申請號: | 202111007250.4 | 申請日: | 2021-08-30 |
| 公開(公告)號: | CN113707137A | 公開(公告)日: | 2021-11-26 |
| 發明(設計)人: | 肖艷紅;趙茂祥;李全忠;何國濤;蒲瑤 | 申請(專利權)人: | 普強時代(珠海橫琴)信息技術有限公司 |
| 主分類號: | G10L15/14 | 分類號: | G10L15/14;G10L19/00 |
| 代理公司: | 北京科億知識產權代理事務所(普通合伙) 11350 | 代理人: | 湯東鳳 |
| 地址: | 519000 廣東省珠海市橫琴新*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 解碼 實現 方法 裝置 | ||
本發明涉及一種解碼實現方法及裝置,包括提供建模單元的HMM模型的拓撲結構,所述拓撲結構包括開始狀態、發射狀態和結束狀態;在所述發射狀態設置自跳邊,用于發射狀態自跳;所述發射狀態包括自跳路徑和轉移路徑以使得所述拓撲結構完成序列對齊;所述使得所述拓撲結構完成序列對齊的步驟為:在對每幀音頻進行解碼時,計算自跳路徑使用的空白字符的聲學得分和語言得分以及轉移路徑使用的有效字符的聲學得分和語言得分;對比每條路徑的得分,確定最高分為發射狀態得分;根據所述發射狀態得分進行序列對齊。本發明能夠使得解碼網絡中的模型數量大大減少,進而大大減小了解碼過程所需的內存。
技術領域
本發明屬于神經網絡技術領域,具體涉及一種解碼實現方法及裝置。
背景技術
在語音識別中,輸入語音序列和輸出序列是不等長的,語音識別的一幀數據,很難給出一個發音單元,但是幾十幀數據就容易判斷出對應的發音單元。傳統的語音識別的聲學模型訓練,對于每一幀的數據,需要知道對應的label才能進行有效的訓練,在訓練數據之前需要做語音強制對齊的預處理。與傳統的聲學模型相比,采用CTC作為損失函數的聲學模型訓練,是一種完全端到端形式,不需要預先對數據做對齊,只需要一個輸入序列和一個輸出序列。CTC模型引入了空白字符,空白字符的引入是為了與輸入特征進行對齊的,它沒有任何輸出意義。在基于CTC模型的解碼過程中,由于每個建模單元都會連接一個空白字符,因而解碼網絡中含有大量的空白字符模型,而空白字符并沒有實際的輸出含義,
HMM模型是序列對齊問題中常用的模型,在語音識別的解碼過程中發揮著重要的作用。其包含如下部分:
N個發射狀態的狀態集合、狀態轉移概率、觀察序列在這里每個ot屬于聲學模型建模單元的集合U、發射概率,即聲學模型的似然,表示在狀態i看到的觀察ot的概率、初始狀態和結束狀態,使用這兩個特殊狀態可以更方便的把多個HMM拼接成一個更大的HMM。
相關技術中,HMM模型的拓撲結構包括開始狀態、結束狀態以及發射狀態。狀態到狀態的之間的邊表示跳轉的方向和權重。每個發射狀態代表一個聲學模型的建模單元(聲學模型的建模單元可以是音素、拼音、字等),t時刻發射概率為t時刻該建模單元的聲學模型似然得分。
拓撲結構和序列對齊過程為在基于CTC模型的解碼中,每個建模單元有一個HMM模型,每個HMM模型有三個狀態,其中具有空白字符的HMM拓撲結構,可以自跳,而其他建模單元或有效字符的HMM拓撲結構,不能自跳。
現有技術中的HMM模型因為含有大量的空白字符模型,而空白字符并沒有實際的輸出含義,還會使得解碼網絡較大,導致語音識別解碼所需的內存較大。
發明內容
有鑒于此,本發明的目的在于克服現有技術的不足,提供一種解碼實現方法及裝置,以解決現有技術中解碼網絡較大,導致語音識別解碼所需的內存較大的問題。
為實現以上目的,本發明采用如下技術方案:一種解碼實現方法,包括:
提供建模單元的HMM模型的拓撲結構,所述拓撲結構包括開始狀態、發射狀態和結束狀態;在所述發射狀態設置自跳邊,用于發射狀態自跳;所述發射狀態包括自跳路徑和轉移路徑以使得所述拓撲結構完成序列對齊;所述使得所述拓撲結構完成序列對齊的步驟為:
在對每幀音頻進行解碼時,計算自跳路徑使用的空白字符的聲學得分和語言得分以及轉移路徑使用的有效字符的聲學得分和語言得分;
對比每條路徑的得分,確定最高分為發射狀態得分;
根據所述發射狀態得分進行序列對齊。
進一步的,解碼采用維特比算法計算自跳路徑使用的空白字符的聲學得分和語言得分以及轉移路徑使用的空白字符外的建模單元的聲學得分和語言得分。
進一步的,對比每條路徑的得分,確定最高分的路徑
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于普強時代(珠海橫琴)信息技術有限公司,未經普強時代(珠海橫琴)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111007250.4/2.html,轉載請聲明來源鉆瓜專利網。





