[發(fā)明專利]用于識別語音的方法、裝置、電子設備和介質(zhì)在審
| 申請?zhí)枺?/td> | 202011314072.5 | 申請日: | 2020-11-20 |
| 公開(公告)號: | CN112530408A | 公開(公告)日: | 2021-03-19 |
| 發(fā)明(設計)人: | 許凌;何怡 | 申請(專利權)人: | 北京有竹居網(wǎng)絡技術有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/04;G10L15/06;G10L15/26;G10L15/30;G10L25/12;G10L25/24 |
| 代理公司: | 北京海智友知識產(chǎn)權代理事務所(普通合伙) 11455 | 代理人: | 吳京順 |
| 地址: | 101299 北京市平*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 識別 語音 方法 裝置 電子設備 介質(zhì) | ||
1.一種用于識別語音的方法,包括:
獲取待識別音頻,其中,所述待識別音頻中包括語音片段;
確定所述待識別音頻中包括的語音片段對應的起止時刻;
根據(jù)所確定的起止時刻,從所述待識別音頻中提取至少一個語音片段;
對所提取的至少一個語音片段進行語音識別,生成所述待識別音頻對應的識別文本。
2.根據(jù)權利要求1所述的方法,其中,所述確定所述待識別音頻中包括的語音片段對應的起止時刻,包括:
提取所述待識別音頻的音頻幀特征,生成第一音頻幀特征;
確定所述第一音頻幀特征對應的音頻幀屬于語音的概率;
根據(jù)所確定的概率與預設閾值的比較,生成語音片段對應的起止時刻。
3.根據(jù)權利要求2所述的方法,其中,所述確定所述第一音頻幀特征對應的音頻幀屬于語音的概率,包括:
將所述第一音頻幀特征輸入至預先訓練的語音檢測模型,生成所述第一音頻幀特征對應的音頻幀屬于語音的概率。
4.根據(jù)權利要求3所述的方法,其中,所述語音檢測模型通過以下步驟訓練得到:
獲取第一訓練樣本集合,其中,所述第一訓練樣本集合中的第一訓練樣本包括第一樣本音頻幀特征和對應的樣本標注信息,所述第一樣本音頻幀特征基于對第一樣本音頻的特征提取得到,所述樣本標注信息用于表征所述第一樣本音頻所屬的類別,所述類別包括語音;
獲取用于分類的初始語音檢測模型;
將所述第一訓練樣本集合中的第一樣本音頻幀特征作為所述初始語音檢測模型的輸入,將與輸入的第一樣本音頻幀特征對應的標注信息作為期望輸出,訓練得到所述語音檢測模型。
5.根據(jù)權利要求2所述的方法,其中,所述根據(jù)所確定的概率與預設閾值的比較,生成語音片段對應的起止時刻,包括
利用預設滑動窗選取第一數(shù)目個音頻幀對應的概率;
確定所選取的概率的統(tǒng)計值;
響應于確定所述統(tǒng)計值大于所述預設閾值,根據(jù)所選取的概率對應的第一數(shù)目個音頻幀所組成的音頻片段,生成語音片段對應的起止時刻。
6.根據(jù)權利要求1所述的方法,其中,所述對所提取的至少一個語音片段進行語音識別,生成所述待識別音頻對應的識別文本,包括:
對所提取的至少一個語音片段提取語音的幀特征,生成第二音頻幀特征;
將所述第二音頻幀特征輸入至預先訓練的聲學模型,得到與所述第二音頻幀特征對應的第二數(shù)目個待匹配音素序列以及對應的得分;
將所述第二數(shù)目個待匹配音素序列輸入至預先訓練的語言模型,得到所述第二數(shù)目個待匹配音素序列對應的待匹配文本以及對應的得分;
根據(jù)所得到的待匹配音素序列和待匹配文本分別對應的得分,從所得到的待匹配文本中選取待匹配文本作為與所述至少一個語音片段對應的匹配文本;
根據(jù)所選取的匹配文本,生成所述待識別音頻對應的識別文本。
7.根據(jù)權利要求6所述的方法,其中,所述聲學模型通過以下步驟訓練得到:
獲取第二訓練樣本集合,其中,所述第二訓練樣本集合中的第二訓練樣本包括第二樣本音頻幀特征和對應的樣本文本,所述第二樣本音頻幀特征基于對第二樣本音頻的特征提取得到,所述樣本文本用于表征所述第二樣本音頻的內(nèi)容;
獲取初始聲學模型;
將所述第二訓練樣本集合中的第二樣本音頻幀特征作為所述初始聲學模型的輸入,將與輸入的第二樣本音頻幀特征對應的樣本文本所指示的音素作為期望輸出,基于第一訓練準則對所述初始聲學模型進行預訓練,其中,所述第一訓練準則基于音頻幀序列生成;
利用預設的窗函數(shù),將所述第二樣本文本所指示的音素轉(zhuǎn)換為用于第二訓練準則的音素標簽,其中,所述第二訓練準則基于音頻幀生成;
將所述第二訓練樣本集合中的第二樣本音頻幀特征作為預訓練后的初始聲學模型的輸入,將與輸入的第二樣本音頻幀特征對應的音素標簽作為期望輸出,利用所述第二訓練準則對所述預訓練后的初始聲學模型進行訓練,得到所述聲學模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京有竹居網(wǎng)絡技術有限公司,未經(jīng)北京有竹居網(wǎng)絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011314072.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





