[發(fā)明專利]語音識別方法和裝置在審
| 申請?zhí)枺?/td> | 202210080184.1 | 申請日: | 2022-01-24 |
| 公開(公告)號: | CN114400006A | 公開(公告)日: | 2022-04-26 |
| 發(fā)明(設(shè)計)人: | 馬東鵬;蘇丹;唐立亮 | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L15/18;G10L15/16;G10L25/30;G10L25/84 |
| 代理公司: | 北京三高永信知識產(chǎn)權(quán)代理有限責(zé)任公司 11138 | 代理人: | 李文靜 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 識別 方法 裝置 | ||
1.一種語音識別方法,其特征在于,所述方法包括:
對目標(biāo)音頻數(shù)據(jù)中的每個音頻幀進行特征提取,得到所述每個音頻幀對應(yīng)的特征信息;
基于所述每個音頻幀對應(yīng)的特征信息和語音識別模型,確定所述目標(biāo)音頻數(shù)據(jù)對應(yīng)的文本和所述文本中的每個文字對應(yīng)的第一時間信息,其中,所述文字對應(yīng)的第一時間信息用于指示所述文字對應(yīng)的音頻幀在所述目標(biāo)音頻數(shù)據(jù)中的時間位置;
基于所述每個音頻幀對應(yīng)的特征信息和主人聲識別模型,確定所述每個音頻幀對應(yīng)的聲音類型,其中,所述聲音類型包括主人聲類型和非主人聲類型;
基于所述目標(biāo)音頻數(shù)據(jù)對應(yīng)的文本、所述文本中的每個文字對應(yīng)的第一時間信息和所述每個音頻幀對應(yīng)的聲音類型,確定所述目標(biāo)音頻數(shù)據(jù)對應(yīng)的主人聲文本。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述主人聲識別模型包括第一CONV模塊、至少一個第一Pyramid Pooling模塊、至少一個第一BLSTM模塊和第一Linear模塊;
所述基于所述每個音頻幀對應(yīng)的特征信息和主人聲識別模型,確定所述每個音頻幀對應(yīng)的聲音類型,包括:
基于所述每個音頻幀對應(yīng)的特征信息和所述第一CONV模塊,確定所述每個音頻幀對應(yīng)的第一中間特征信息;
基于所述每個音頻幀對應(yīng)的第一中間特征信息、所述至少一個第一Pyramid Pooling模塊和所述至少一個第一BLSTM模塊,確定M個第一音頻幀組分別對應(yīng)的第二中間特征信息,其中,每個第一音頻幀組由第一預(yù)設(shè)數(shù)目個相鄰的音頻幀組成;
基于所述M個第一音頻幀組分別對應(yīng)的第二中間特征信息和所述第一Linear模塊,確定所述M個第一音頻幀組分別對應(yīng)的主人聲類型的概率值或所述M個第一音頻幀組分別對應(yīng)的非主人聲類型的概率值;
基于所述M個第一音頻幀組分別對應(yīng)的主人聲類型的概率值或所述M個第一音頻幀組分別對應(yīng)的非主人聲類型的概率值,確定所述每個音頻幀對應(yīng)的聲音類型。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述語音識別模型包括聲學(xué)模型、語言模型、詞典和解碼器;
所述基于所述每個音頻幀對應(yīng)的特征信息和語音識別模型,確定所述目標(biāo)音頻數(shù)據(jù)對應(yīng)的文本和所述文本中的每個文字對應(yīng)的第一時間信息,包括:
基于所述每個音頻幀對應(yīng)的特征信息和所述聲學(xué)模型,確定N個第二音頻幀組分別對應(yīng)的聲學(xué)模型得分,其中,每個第二音頻幀組由第二預(yù)設(shè)數(shù)目個相鄰的音頻幀組成,所述第二音頻幀組對應(yīng)的聲學(xué)模型得分用于指示所述第二音頻幀組分別與多種預(yù)設(shè)發(fā)音音節(jié)的匹配概率;
基于所述N個第二音頻幀組分別對應(yīng)的聲學(xué)模型得分、所述語言模型、所述詞典和所述解碼器,確定所述目標(biāo)音頻數(shù)據(jù)對應(yīng)的文本和所述文本中的每個文字對應(yīng)的第一時間信息。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述基于所述每個音頻幀對應(yīng)的特征信息和主人聲識別模型,確定所述每個音頻幀對應(yīng)的聲音類型,包括:
基于所述每個音頻幀對應(yīng)的特征信息、所述N個第二音頻幀組分別對應(yīng)的聲學(xué)模型得分和所述主人聲識別模型,確定所述每個音頻幀對應(yīng)的聲音類型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210080184.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





