[發(fā)明專利]一種語音識別方法、裝置、設(shè)備及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202010217558.0 | 申請日: | 2020-03-25 |
| 公開(公告)號: | CN111402861B | 公開(公告)日: | 2022-11-15 |
| 發(fā)明(設(shè)計)人: | 陳明佳 | 申請(專利權(quán))人: | 思必馳科技股份有限公司 |
| 主分類號: | G10L15/00 | 分類號: | G10L15/00;G10L15/08;G10L15/06 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 215021 江蘇省蘇州市蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 語音 識別 方法 裝置 設(shè)備 存儲 介質(zhì) | ||
1.一種語音識別方法,其特征在于,包括:
獲取待識別的語音,并將所述語音轉(zhuǎn)換為聲學(xué)特征;
將所述聲學(xué)特征輸入到至少兩種語言聲學(xué)模型中,輸出對應(yīng)的音素序列;其中,每種語言聲學(xué)模型輸出的音素序列的語種不相同;
將各個語種的音素序列轉(zhuǎn)換成對應(yīng)的文字序列,并確定所述文字序列的識別置信度;
根據(jù)所述聲學(xué)特征,對所述語音進行語種分類,并確定所述語音屬于各語種的語種置信度;
根據(jù)所述識別置信度和所述語種置信度,確定所述語音針對各語種的分類識別得分,并將分類識別得分最高值對應(yīng)的文字序列作為所述語音的識別結(jié)果;
所述根據(jù)所述識別置信度和所述語種置信度,確定所述語音針對各語種的分類識別得分,包括:
針對每個語種的文字序列,對所述文字序列進行文字語種分類,確定所述文字序列屬于各語種的文字語種置信度;
根據(jù)所述語種置信度和所述文字語種置信度,確定所述語音屬于各語種的語種分類得分,確定語種分類得分的最高值對應(yīng)的語種為目標(biāo)語種;
通過所述目標(biāo)語種對應(yīng)的語義模型,對所有所述文字序列進行領(lǐng)域分類,并確定所述文字序列屬于各領(lǐng)域?qū)?yīng)的領(lǐng)域置信度;
根據(jù)所述識別置信度、所述語種分類得分和所述領(lǐng)域置信度,確定所述語音針對各語種的分類識別得分。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,將所述語音轉(zhuǎn)換為聲學(xué)特征,包括:
將所述語音輸入到語音處理深度學(xué)習(xí)模型,得到所述語音的聲學(xué)特征;
將各個語種的音素序列轉(zhuǎn)換成對應(yīng)的文字序列,并確定所述文字序列的識別置信度,包括:
將各個語種的音素序列分別輸入到對應(yīng)語種的語言模型,得到各個語種的音素序列對應(yīng)的文字序列,并確定所述文字序列的識別置信度。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述語音處理深度學(xué)習(xí)模型,包括:雙向編碼器的語音處理深度學(xué)習(xí)BERT模型。
4.一種語音識別裝置,其特征在于,包括:
聲學(xué)特征轉(zhuǎn)換模塊,用于獲取待識別的語音,并將所述語音轉(zhuǎn)換為聲學(xué)特征;
音素序列輸出模塊,用于將所述聲學(xué)特征輸入到至少兩種語言聲學(xué)模型中,輸出對應(yīng)的音素序列;其中,每種語言聲學(xué)模型輸出的音素序列的語種不相同;
文字序列轉(zhuǎn)換模塊,用于將各個語種的音素序列轉(zhuǎn)換成對應(yīng)的文字序列,并確定所述文字序列的識別置信度;
語種分類模塊,用于根據(jù)所述聲學(xué)特征,對所述語音進行語種分類,并確定所述語音屬于各語種的語種置信度;
識別結(jié)果獲取模塊,用于根據(jù)所述識別置信度和所述語種置信度,確定所述語音針對各語種的分類識別得分,并將分類識別得分最高值對應(yīng)的文字序列作為所述語音的識別結(jié)果;
所述識別結(jié)果獲取模塊,包括:文字語種置信度確定單元,目標(biāo)語種確定單元,領(lǐng)域置信度第二確定單元和分類識別得分第二確定單元;
文字語種置信度確定單元,用于針對每個語種的文字序列,對文字序列進行文字語種分類,確定文字序列屬于各語種的文字語種置信度;
目標(biāo)語種確定單元,用于根據(jù)語種置信度和文字語種置信度,確定語音屬于各語種的語種分類得分,確定語種分類得分的最高值對應(yīng)的語種為目標(biāo)語種;
領(lǐng)域置信度第二確定單元,用于通過目標(biāo)語種對應(yīng)的語義模型,對所有文字序列進行領(lǐng)域分類,并確定文字序列屬于各領(lǐng)域?qū)?yīng)的領(lǐng)域置信度;
分類識別得分第二確定單元,用于根據(jù)識別置信度、語種分類得分和領(lǐng)域置信度,確定語音針對各語種的分類識別得分。
5.一種語音識別設(shè)備,其特征在于,包括:
一個或多個處理器;
存儲裝置,用于存儲一個或多個程序,
當(dāng)所述一個或多個程序被所述一個或多個處理器執(zhí)行,使得所述一個或多個處理器實現(xiàn)如權(quán)利要求1-3任一項所述的一種語音識別方法。
6.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,該程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-3任一項所述的一種語音識別方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于思必馳科技股份有限公司,未經(jīng)思必馳科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010217558.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





