[發(fā)明專利]對用戶語音信號進行處理的方法及其系統(tǒng)在審
| 申請?zhí)枺?/td> | 201410563622.5 | 申請日: | 2014-10-21 |
| 公開(公告)號: | CN105529038A | 公開(公告)日: | 2016-04-27 |
| 發(fā)明(設計)人: | 李曉輝;許敏強 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G10L25/78 | 分類號: | G10L25/78;G10L15/16;H04M3/493;H04M3/51 |
| 代理公司: | 上海一平知識產(chǎn)權代理有限公司 31266 | 代理人: | 須一平;成春榮 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用戶 語音 信號 進行 處理 方法 及其 系統(tǒng) | ||
1.一種對用戶語音信號進行處理的方法,用戶可通過輸入特定按鍵表 示語音結束,其特征在于,包括以下步驟:
服務器接收用戶語音信號,該用戶語音信號混合了該語音終端通過話筒 接收到的外部語音和該語音終端自身的雙音多頻按鍵音;
服務器對收到的用戶語音信號進行頻譜分析,得到用戶語音信號的頻 譜;
根據(jù)所述頻譜中預先設定的按鍵對應的雙音多頻目標頻率分量的大小, 判斷在通話過程中預先設定的按鍵是否被按下;
如果預先設定的按鍵被按下,則判定用戶當前的語音輸入已經(jīng)結束。
2.根據(jù)權利要求1所述的對用戶語音信號進行處理的方法,其特征在 于,在所述判定用戶當前的語音輸入已經(jīng)結束的步驟之后,還包括步驟:
停止語音信號的錄制并將錄制的語音信號發(fā)送給語音識別服務器進行 識別,根據(jù)識別結果查詢應答內容服務器得到應答結果,將應答結果轉換為 語音信號發(fā)送給語音終端。
3.根據(jù)權利要求1所述的對用戶語音信號進行處理的方法,其特征在 于,在所述"根據(jù)所述頻譜中預先設定的按鍵對應的雙音多頻目標頻率分量 的大小,判斷在通話過程中預先設定的按鍵是否被按下"的步驟中,包括以 下子步驟:
根據(jù)所述用戶語音信號的頻譜,檢測各幀信號中所述預先設定的按鍵對 應的雙音多頻目標頻率分量的能量占全頻帶能量的比例是否超過第一閾值, 如果超過,則判定該幀信號為所述按鍵對應的雙音多頻信號;
將所述用戶語音信號中為所述按鍵對應的雙音多頻信號的連續(xù)多幀的 幀數(shù)與第二閾值進行比較;
如果所述幀數(shù)超過所述第二閾值,再檢測所述連續(xù)多幀的前后幀是否不 是所述按鍵對應的雙音多頻信號;
如果所述連續(xù)多幀的前后幀不是所述按鍵對應的雙音多頻信號,則判定 在通話過程中預先設定的按鍵被按下。
4.根據(jù)權利要求1所述的對用戶語音信號進行處理的方法,其特征在 于,在所述“根據(jù)所述頻譜中預先設定的按鍵對應的雙音多頻目標頻率分量 的大小,判斷在通話過程中預先設定的按鍵是否被按下”的步驟之后,還包 括步驟:
對所述用戶語音信號進行語音活動檢測,判斷所述用戶語音信號中靜音 時間是否達到設定的連續(xù)靜音長度閾值,如果達到該連續(xù)靜音長度閾值則判 定為用戶當前的語音輸入已經(jīng)結束。
5.根據(jù)權利要求4所述的對用戶語音信號進行處理的方法,其特征在 于,在所述“對所述用戶語音信號進行語音活動檢測,判斷所述用戶語音信 號中靜音時間是否達到設定的連續(xù)靜音長度閾值,如果達到該連續(xù)靜音長度 閾值則判定為用戶當前的語音輸入已經(jīng)結束”的步驟中,包括以下子步驟:
對所述用戶語音信號進行特征提取;
將所述從用戶語音信號中提取的特征輸入到訓練過的神經(jīng)網(wǎng)絡中,所述 神經(jīng)網(wǎng)絡將所述輸入的特征判別為靜音和語音的概率;
根據(jù)所述靜音和語音的概率判決為靜音或者語音;
根據(jù)所述靜音或者語音的判決結果,計算連續(xù)靜音的長度,如果達到設 定的連續(xù)靜音長度閾值,則判定為用戶當前的語音輸入已經(jīng)結束。
6.根據(jù)權利要求5所述的對用戶語音信號進行處理的方法,其特征在 于,在所述對用戶語音信號進行特征提取的步驟中,所述特征包括PLP特 征和基音信息,所述PLP特征和基音信息的一階差分和二階差分形成的42 維的PLP特征。
7.根據(jù)權利要求4所述的對用戶語音信號進行處理的方法,其特征在 于,在所述“對所述用戶語音信號進行語音活動檢測,判斷所述用戶語音信 號中靜音時間是否達到設定的連續(xù)靜音長度閾值,如果達到該連續(xù)靜音長度 閾值則判定為用戶當前的語音輸入已經(jīng)結束”的步驟之前,還包括步驟:
經(jīng)過一個語音識別系統(tǒng),獲取語音數(shù)據(jù)和靜音數(shù)據(jù),并以獲取到的語音 數(shù)據(jù)和靜音數(shù)據(jù)作為訓練集合來訓練神經(jīng)網(wǎng)絡。
8.根據(jù)權利要求7所述的對用戶語音信號進行處理的方法,其特征在 于,所述語音識別系統(tǒng)為基于隱馬爾科夫模型和深度神經(jīng)網(wǎng)絡的語音識別系 統(tǒng),所述訓練神經(jīng)網(wǎng)絡的步驟包括基于受限玻爾茲曼機的預訓練和基于反向 傳播算法的訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經(jīng)阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410563622.5/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





