[發明專利]語音識別方法、裝置和系統及存儲介質在審
| 申請號: | 202011212947.0 | 申請日: | 2020-11-02 |
| 公開(公告)號: | CN112133294A | 公開(公告)日: | 2020-12-25 |
| 發明(設計)人: | 王杰;李秀林 | 申請(專利權)人: | 標貝(北京)科技有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/14;G10L15/26 |
| 代理公司: | 北京睿邦知識產權代理事務所(普通合伙) 11481 | 代理人: | 徐丁峰;戴亞南 |
| 地址: | 100192 北京市海淀區西小口路66號中關*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 方法 裝置 系統 存儲 介質 | ||
本發明提供一種語音識別方法、裝置和系統及存儲介質。方法包括:獲取待識別語音;提取待識別語音的聲學特征;將聲學特征輸入轉換器模型,以在第i個時間步獲得轉換器模型輸出的與第i個語音段相對應的模型分數集合,i=1,2,……,n,模型分數集合包括與轉換器模型所建模的文字集合中的所有文字一一對應的模型分數,每個模型分數表示第i個語音段屬于該模型分數所對應的文字的概率;結合模型分數集合以及加權有限狀態機模塊,計算從第1個語音段至第i個語音段中的所有語音段所對應的至少一個轉移路徑各自的路徑分數;基于至少一個轉移路徑各自的路徑分數,獲得與第i個語音段相對應的文字解碼結果。該方法有助于提高整個語音識別系統的識別正確率。
技術領域
本發明涉及語音處理技術領域,具體地,涉及一種語音識別方法、裝置和系統及存儲介質。
背景技術
在語音識別領域,端到端(seq2seq)模型最近取得了長足的進步。它們消除了隱馬爾可夫模型(HMM)和連接時序分類模型(CTC)所做出的不合理的幀獨立性假設,從而使自己能夠學習隱式語言模型,并更直接地優化詞錯誤率(WER)。端到端模型中一個典型的代表是基于自注意(self-attention)的轉換器(Transformer)模型。
現有技術使用Transformer模型作為語音識別的整個處理模型。對于通用的場景,諸如日常聊天等一些常見表達時沒什么問題。但是,當要預測比較生僻的詞,或者人名地名這種專有名詞時,就比較容易識別錯。如果重新訓練Transformer模型也會有很大困難:一是訓練數據少,二是訓練周期長,不能滿足快速迭代的產品需求。
發明內容
為了至少部分地解決現有技術中存在的問題,提供一種語音識別方法、裝置和系統及存儲介質。
根據本發明一個方面,提供一種語音識別方法,包括:獲取待識別語音;提取待識別語音的聲學特征;將聲學特征輸入轉換器模型,以在第i個時間步獲得轉換器模型輸出的與第i個語音段相對應的模型分數集合,其中,待識別語音包括n個語音段,i=1,2,……,n,模型分數集合包括與轉換器模型所建模的文字集合中的所有文字一一對應的模型分數,每個模型分數表示第i個語音段屬于該模型分數所對應的文字的概率;結合模型分數集合以及加權有限狀態機模塊,計算從第1個語音段至第i個語音段中的所有語音段所對應的至少一個轉移路徑各自的路徑分數;以及基于至少一個轉移路徑各自的路徑分數,獲得與第i個語音段相對應的文字解碼結果。
示例性地,將聲學特征輸入轉換器模型,以在第i個時間步獲得轉換器模型輸出的與第i個語音段相對應的模型分數集合包括:將待識別語音的聲學特征輸入轉換器模型的編碼器模塊,以獲得編碼器模塊輸出的編碼結果;在第i個時間步下,將在第i個語音段之前的所有語音段的文字解碼結果與編碼結果一起,輸入轉換器模型的解碼器模塊,以獲得解碼器模塊輸出的模型分數集合。
示例性地,結合模型分數集合以及加權有限狀態機模塊,計算從第1個語音段至第i個語音段中的所有語音段所對應的轉移路徑各自的路徑分數包括:從加權有限狀態機模塊中獲取第i個語音段所對應的轉移分數集合,轉移分數集合包括與從先前狀態轉移到當前狀態集合的所有轉移弧一一對應的轉移分數,其中,在i=1的情況下,先前狀態為起始狀態,并且在i>1的情況下,先前狀態為與第i-1個語音段的文字解碼結果相對應的狀態,當前狀態集合包括先前狀態鏈接到的所有當前狀態;對于從起始狀態出發轉移至當前狀態集合的過程中經歷的所有轉移路徑中的任一當前轉移路徑,將先前轉移路徑的路徑分數、轉移分數集合中的與特定轉移弧相對應的轉移分數、以及模型分數集合中的與特定文字相對應的模型分數相加,以獲得當前轉移路徑的路徑分數,其中,當前轉移路徑包括先前轉移路徑和特定跳轉弧,先前轉移路徑是從起始狀態出發轉移至先前狀態的過程中經歷的轉移路徑,特定轉移弧是從先前狀態轉移至當前狀態集合中的當前狀態之一的轉移弧,特定文字是與特定轉移弧上的輸出標簽一致的文字;其中,至少一個轉移路徑是從起始狀態出發轉移至當前狀態集合的過程中經歷的所有轉移路徑。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于標貝(北京)科技有限公司,未經標貝(北京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011212947.0/2.html,轉載請聲明來源鉆瓜專利網。





