[發(fā)明專利]語音識別方法、裝置、電子設備和存儲介質在審
| 申請?zhí)枺?/td> | 202011604891.3 | 申請日: | 2020-12-30 |
| 公開(公告)號: | CN112599118A | 公開(公告)日: | 2021-04-02 |
| 發(fā)明(設計)人: | 萬根順;高建清;劉聰;王智國;胡國平 | 申請(專利權)人: | 科大訊飛股份有限公司 |
| 主分類號: | G10L15/07 | 分類號: | G10L15/07;G10L17/00;G10L17/04 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 李文清 |
| 地址: | 230088 安徽省*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 方法 裝置 電子設備 存儲 介質 | ||
本發(fā)明實施例提供一種語音識別方法、裝置、電子設備和存儲介質,其中方法包括:確定待識別的語音數據;基于經訓練的語音識別模型,確定語音數據的語音識別結果;其中,語音識別模型用于將所述語音數據的語音特征與通用發(fā)音偏差特征集進行注意力交互,或,將所述語音數據的語音特征分別與所述通用發(fā)音偏差特征集和通用說話人聲紋特征集進行注意力交互,得到語音數據的說話人特征,并基于語音數據的語音特征和說話人特征,對語音數據進行語音識別。本發(fā)明實施例提供的語音識別方法、裝置、電子設備和存儲介質,提高了說話人自適應的實時性和效果,有助于提高多人會話場景下的語音識別準確性。
技術領域
本發(fā)明涉及語音信號處理技術領域,尤其涉及一種語音識別方法、裝置、電子設備和存儲介質。
背景技術
在多人會話場景下,由于不同人的口音和說話風格不同,因此需要根據說話人的特性自動調整模型參數,以適應不同說話人的語音數據,從而提高整體的識別準確率。
然而,現有的基于多人會話場景的說話人自適應方案或者需要事先收集大量的說話人語料,其自適應效果和實時性受限;或者需要基于系統中說話人相關的歷史語料提取說話人編碼信息,其自適應效果和實時性同樣欠佳。
發(fā)明內容
本發(fā)明實施例提供一種語音識別方法、裝置、電子設備和存儲介質,用以解決現有技術中自適應效果和實時性欠佳的缺陷。
本發(fā)明實施例提供一種語音識別方法,包括:
確定待識別的語音數據;
基于經訓練的語音識別模型,確定所述語音數據的語音識別結果;
其中,所述語音識別模型用于將所述語音數據的語音特征與通用發(fā)音偏差特征集進行注意力交互,或,將所述語音數據的語音特征分別與所述通用發(fā)音偏差特征集和通用說話人聲紋特征集進行注意力交互,得到所述語音數據的說話人特征,并基于所述語音數據的語音特征和說話人特征,對所述語音數據進行語音識別。
根據本發(fā)明一個實施例的語音識別方法,所述基于經訓練的語音識別模型,確定所述語音數據的語音識別結果,包括:
基于所述語音識別模型的語音特征提取層對所述語音數據的當前幀進行特征提取,以生成所述當前幀的語音特征;
基于所述語音識別模型的注意力交互層將所述當前幀的語音特征與所述通用發(fā)音偏差特征集進行注意力交互,或,將所述當前幀的語音特征分別與所述通用發(fā)音偏差特征集和通用說話人聲紋特征集進行注意力交互,生成所述當前幀的說話人特征;
基于所述語音識別模型的解碼層對所述語音數據的每一幀的語音特征和說話人特征進行解碼,得到所述語音識別結果。
根據本發(fā)明一個實施例的語音識別方法,所述說話人特征包括發(fā)音偏差特征;
所述對所述當前幀的語音特征與所述通用發(fā)音偏差特征集進行注意力交互,包括:
基于所述注意力交互層的權重計算層對所述語音特征和所述通用發(fā)音偏差特征集進行注意力權重計算,得到所述通用發(fā)音偏差特征集中每一通用發(fā)音偏差特征的注意力權重;
基于所述注意力交互層的發(fā)音偏差特征重構層,結合每一通用發(fā)音偏差特征及其注意力權重,以及所述通用發(fā)音偏差特征集中易混淆發(fā)音偏差特征的激勵權重進行發(fā)音偏差特征重構,得到所述發(fā)音偏差特征。
根據本發(fā)明一個實施例的語音識別方法,所述易混淆發(fā)音偏差特征是基于如下步驟確定的:
基于預設時間段內所有歷史語音數據中任一正確識別分詞對應的歷史語音數據,確定所述任一正確識別分詞的易混淆音素級發(fā)音偏差向量;
將每一正確識別分詞的易混淆音素級發(fā)音偏差向量分別與每一通用發(fā)音偏差特征進行匹配,將與任一正確識別分詞的易混淆音素級發(fā)音偏差向量匹配成功的通用發(fā)音偏差特征作為所述易混淆發(fā)音偏差特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科大訊飛股份有限公司,未經科大訊飛股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011604891.3/2.html,轉載請聲明來源鉆瓜專利網。





