[發(fā)明專利]對用戶語音信號進行處理的方法及其系統(tǒng)在審

申請?zhí)枺?/td>	201410563622.5	申請日：	2014-10-21
公開（公告）號：	CN105529038A	公開（公告）日：	2016-04-27
發(fā)明（設計）人：	李曉輝;許敏強	申請（專利權）人：	阿里巴巴集團控股有限公司
主分類號：	G10L25/78	分類號：	G10L25/78;G10L15/16;H04M3/493;H04M3/51
代理公司：	上海一平知識產(chǎn)權代理有限公司 31266	代理人：	須一平;成春榮
地址：	英屬開曼群島大開***	國省代碼：	開曼群島;KY
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	用戶語音信號進行處理方法及其系統(tǒng)
鉆瓜網(wǎng) 技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種對用戶語音信號進行處理的方法，用戶可通過輸入特定按鍵表示語音結束，其特征在于，包括以下步驟：

服務器接收用戶語音信號，該用戶語音信號混合了該語音終端通過話筒接收到的外部語音和該語音終端自身的雙音多頻按鍵音；

服務器對收到的用戶語音信號進行頻譜分析，得到用戶語音信號的頻譜；

根據(jù)所述頻譜中預先設定的按鍵對應的雙音多頻目標頻率分量的大小，判斷在通話過程中預先設定的按鍵是否被按下；

如果預先設定的按鍵被按下，則判定用戶當前的語音輸入已經(jīng)結束。

2.根據(jù)權利要求1所述的對用戶語音信號進行處理的方法，其特征在于，在所述判定用戶當前的語音輸入已經(jīng)結束的步驟之后，還包括步驟：

停止語音信號的錄制并將錄制的語音信號發(fā)送給語音識別服務器進行識別，根據(jù)識別結果查詢應答內容服務器得到應答結果，將應答結果轉換為語音信號發(fā)送給語音終端。

3.根據(jù)權利要求1所述的對用戶語音信號進行處理的方法，其特征在于，在所述"根據(jù)所述頻譜中預先設定的按鍵對應的雙音多頻目標頻率分量的大小，判斷在通話過程中預先設定的按鍵是否被按下"的步驟中，包括以下子步驟：

根據(jù)所述用戶語音信號的頻譜，檢測各幀信號中所述預先設定的按鍵對應的雙音多頻目標頻率分量的能量占全頻帶能量的比例是否超過第一閾值，如果超過，則判定該幀信號為所述按鍵對應的雙音多頻信號；

將所述用戶語音信號中為所述按鍵對應的雙音多頻信號的連續(xù)多幀的幀數(shù)與第二閾值進行比較；

如果所述幀數(shù)超過所述第二閾值，再檢測所述連續(xù)多幀的前后幀是否不是所述按鍵對應的雙音多頻信號；

如果所述連續(xù)多幀的前后幀不是所述按鍵對應的雙音多頻信號，則判定在通話過程中預先設定的按鍵被按下。

4.根據(jù)權利要求1所述的對用戶語音信號進行處理的方法，其特征在于，在所述“根據(jù)所述頻譜中預先設定的按鍵對應的雙音多頻目標頻率分量的大小，判斷在通話過程中預先設定的按鍵是否被按下”的步驟之后，還包括步驟：

對所述用戶語音信號進行語音活動檢測，判斷所述用戶語音信號中靜音時間是否達到設定的連續(xù)靜音長度閾值，如果達到該連續(xù)靜音長度閾值則判定為用戶當前的語音輸入已經(jīng)結束。

5.根據(jù)權利要求4所述的對用戶語音信號進行處理的方法，其特征在于，在所述“對所述用戶語音信號進行語音活動檢測，判斷所述用戶語音信號中靜音時間是否達到設定的連續(xù)靜音長度閾值，如果達到該連續(xù)靜音長度閾值則判定為用戶當前的語音輸入已經(jīng)結束”的步驟中，包括以下子步驟：

對所述用戶語音信號進行特征提取；

將所述從用戶語音信號中提取的特征輸入到訓練過的神經(jīng)網(wǎng)絡中，所述神經(jīng)網(wǎng)絡將所述輸入的特征判別為靜音和語音的概率；

根據(jù)所述靜音和語音的概率判決為靜音或者語音；

根據(jù)所述靜音或者語音的判決結果，計算連續(xù)靜音的長度，如果達到設定的連續(xù)靜音長度閾值，則判定為用戶當前的語音輸入已經(jīng)結束。

6.根據(jù)權利要求5所述的對用戶語音信號進行處理的方法，其特征在于，在所述對用戶語音信號進行特征提取的步驟中，所述特征包括PLP特征和基音信息，所述PLP特征和基音信息的一階差分和二階差分形成的42 維的PLP特征。

7.根據(jù)權利要求4所述的對用戶語音信號進行處理的方法，其特征在于，在所述“對所述用戶語音信號進行語音活動檢測，判斷所述用戶語音信號中靜音時間是否達到設定的連續(xù)靜音長度閾值，如果達到該連續(xù)靜音長度閾值則判定為用戶當前的語音輸入已經(jīng)結束”的步驟之前，還包括步驟：

經(jīng)過一個語音識別系統(tǒng)，獲取語音數(shù)據(jù)和靜音數(shù)據(jù)，并以獲取到的語音數(shù)據(jù)和靜音數(shù)據(jù)作為訓練集合來訓練神經(jīng)網(wǎng)絡。

8.根據(jù)權利要求7所述的對用戶語音信號進行處理的方法，其特征在于，所述語音識別系統(tǒng)為基于隱馬爾科夫模型和深度神經(jīng)網(wǎng)絡的語音識別系統(tǒng)，所述訓練神經(jīng)網(wǎng)絡的步驟包括基于受限玻爾茲曼機的預訓練和基于反向傳播算法的訓練。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司，未經(jīng)阿里巴巴集團控股有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201410563622.5/1.html，轉載請聲明來源鉆瓜專利網(wǎng)。

專利分類

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】