[發(fā)明專利]基于人工智能的語音處理方法及裝置有效

申請?zhí)枺?/td>	201611132359.X	申請日：	2016-12-09
公開（公告）號：	CN108231089B	公開（公告）日：	2020-11-03
發(fā)明（設(shè)計）人：	王知踐;錢勝	申請（專利權(quán)）人：	百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司
主分類號：	G10L25/51	分類號：	G10L25/51;G10L25/30;G10L25/78;G10L19/00
代理公司：	北京清亦華知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201	代理人：	張潤
地址：	100085 北京市***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	基于人工智能語音處理方法裝置
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種基于人工智能的語音處理方法，其特征在于，包括：

對待解碼的語音進行靜音檢測；

如果檢測出所述待解碼的語音為靜音語音，截斷所述待解碼的語音得到目標(biāo)語音；

利用預(yù)設(shè)的靜音幀的尾部特征重置所述目標(biāo)語音的尾部特征；

對重置后的所述目標(biāo)語音進行CTC解碼處理；

所述利用預(yù)設(shè)的靜音幀的尾部特征重置所述目標(biāo)語音的尾部特征，包括：

從所述目標(biāo)語音中選取出需要特征重置的多個尾部幀，其中，確定所述目標(biāo)語音所包括的最大空白幀的位置，從所述最大空白幀開始往前選取預(yù)設(shè)第三個數(shù)的幀作為所述尾部幀，其中，所述最大空白幀為所述目標(biāo)語音所包括的連續(xù)空白幀中最后一個空白幀，連續(xù)空白幀的第一個數(shù)大于預(yù)設(shè)的第二個數(shù)；

利用所述靜音幀的尾部特征重置所有尾部幀的特征。

2.根據(jù)權(quán)利要求1所述的基于人工智能的語音處理方法，其特征在于，

所述利用所述靜音幀的尾部特征重置所有尾部幀的特征，包括：

將選取的預(yù)設(shè)第三個數(shù)的尾部幀分成兩段；其中，第一段從所述最大空白幀開始往前所包括幀的個數(shù)為預(yù)設(shè)第四個數(shù)，第二段所包括的幀為選取的所有尾部幀中除所述第一段之外剩余的幀；

選取與所述第二段所包括的幀的個數(shù)相同的所述靜音幀的尾部特征；

利用選取的所述靜音幀的尾部特征重置所述第二段中各幀的特征；

利用聲學(xué)模型基于重置后的所述第二段中各幀的特征擴展所述第一段中各幀的特征。

3.根據(jù)權(quán)利要求2所述的基于人工智能的語音處理方法，其特征在于，所述截斷所述待解碼的語音得到目標(biāo)語音，包括：

在所述最大空白幀的位置對所述待解碼的語音進行截斷，得到所述目標(biāo)語音。

4.根據(jù)權(quán)利要求3所述的基于人工智能的語音處理方法，其特征在于，所述對待解碼的語音進行靜音檢測，包括：

統(tǒng)計所述待解碼的語音中所包括的連續(xù)空白幀的所述第一個數(shù)；

記錄當(dāng)前幀的幀標(biāo)識；

判斷所述第一個數(shù)是否超出所述第二個數(shù)；

如果判斷出所述第一個數(shù)超出所述第二個數(shù)，則確定所述待解碼的語音為靜音語音。

5.根據(jù)權(quán)利要求4所述的基于人工智能的語音處理方法，其特征在于，所述如果判斷出所述第一個數(shù)超出所述第二個數(shù)，則確定所述待解碼的語音為靜音語音，包括：

從記錄的所述最大空白幀的位置往前移動獲取預(yù)設(shè)長度的空白幀；

對預(yù)設(shè)長度的空白幀進行語音活動檢測VAD，獲取所述預(yù)設(shè)長度的空白幀的語音置信度；

如果所述語音置信度低于預(yù)設(shè)的閾值，則確定所述待解碼的語音為靜音語音；

為所述待解碼的語音設(shè)置一個靜音語音標(biāo)志。

6.根據(jù)權(quán)利要求5所述的基于人工智能的語音處理方法，其特征在于，所述確定所述目標(biāo)語音所包括的最大空白幀的位置，包括：

根據(jù)記錄的當(dāng)前幀的幀標(biāo)識確定所述最大空白幀的位置。

7.根據(jù)權(quán)利要求6所述的基于人工智能的語音處理方法，其特征在于，所述對重置后的所述目標(biāo)語音進行CTC解碼處理，包括：

將重置后的所述目標(biāo)語音輸入到預(yù)設(shè)的CTC模型中進行解碼；

在解碼到所述尾部幀后時，判斷所述尾部幀是否解碼出一個CTC尖峰；

在解碼出所述CTC尖峰時，將所述目標(biāo)語音對應(yīng)的文本內(nèi)容中的最后一字在屏幕上進行顯示。

8.根據(jù)權(quán)利要求2-7任一項所述的基于人工智能的語音處理方法，其特征在于，所述第三個數(shù)為9，其中，所述第一段從最大空白幀開始往前包括5個幀，所述第二段包括4個幀。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司，未經(jīng)百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201611132359.X/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理

免登錄下載普通用戶下載升級VIP會員，免費下載

[發(fā)明專利]基于人工智能的語音處理方法及裝置有效

專利文獻下載