[發明專利]智能語音處理方法和裝置在審
| 申請號: | 201810575092.4 | 申請日: | 2018-06-06 |
| 公開(公告)號: | CN110634470A | 公開(公告)日: | 2019-12-31 |
| 發明(設計)人: | 李鑫;孟通;韓冬 | 申請(專利權)人: | 北京深鑒智能科技有限公司 |
| 主分類號: | G10L15/04 | 分類號: | G10L15/04;G10L15/16 |
| 代理公司: | 11452 北京展翼知識產權代理事務所(特殊普通合伙) | 代理人: | 張陽 |
| 地址: | 100083 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 斷句 神經網絡 語音 人工神經網絡 神經網絡計算 循環神經網絡 智能語音識別 方法和裝置 輸出特征 循環單元 語音識別 智能語音 連接層 分幀 或門 優選 判定 送入 智能 配合 | ||
本發明公開了一種智能語音處理方法和裝置。所述方法包括:對輸入的語音進行分幀處理以獲取多個幀的斷句參數;將所述多個幀的斷句參數作為特征值輸入經訓練的人工神經網絡(ANN),所述ANN包括循環神經網絡(RNN);以及將所述RNN的輸出特征送入全連接層,以判定輸入的每個幀是否為斷句點。優選地,所述RNN可以是長短時記憶(LSTM)神經網絡或門控循環單元(GRU)神經網絡,并且所述ANN還可以是CNN后接RNN的結構。該方案能夠利用后續語音識別處理中所需的神經網絡或神經網絡計算平臺,對輸入的長句語音進行智能斷句,由此實現與智能語音識別相配合的精準斷句方案。
技術領域
本發明涉及語音處理,尤其涉及基于神經網絡對語音進行的智能處理。
背景技術
語音識別(Speech Recognition)是將語言的模擬信號順序映射到一個具體的單詞集合上的技術。近年來,人工神經網絡(ANN)方法在語音識別領域取得的效果已遠遠超出了所有傳統方法,成為了全行業的主流。其中,深度神經網絡有著極為廣泛的應用。
然而,通過近幾年的迅速發展,神經網絡的規模不斷增長,已公開的先進的神經網絡可達數百層、數億個連接,屬于計算和訪存密集型應用。現有的基于GPU、FPGA或ASIC的異構神經網絡處理器雖然能夠大幅降低神經網絡的算力和功耗需求,但由于硬件資源的限制,基于GPU或是基于FPGA或ASIC的專用神經網絡推理加速器對單次輸入數據的長度有所限制,即,對每一次所能處理的語句的最大長度有所限制。因此需要合適的斷句方法,對于較長的輸入語句進行處理,分段進行識別。
傳統的語音分割,或者端點檢測方法,多數是基于語音的短時能量、短時過零率,結合門限值和判斷邏輯進行判斷。但是上述語音分割方案不涉及時間的相關性,通常無法對斷句點做出判斷。
因此,需要一種適于神經網絡語音識別系統使用的、更為準確的斷句方案。
發明內容
本發明提出了一種智能語音處理方案,其能夠利用后續語音識別處理中所需的神經網絡或神經網絡計算平臺,對輸入的長句語音進行智能斷句,由此實現與智能語音識別相配合的斷句方案。
根據本發明的一個方面,提出了一種智能語音處理方法,包括:對輸入的語音進行分幀處理以獲取多個幀的斷句參數;將所述多個幀的斷句參數作為特征值輸入經訓練的人工神經網絡(ANN),所述ANN包括循環神經網絡(RNN);以及將所述RNN的輸出特征送入全連接層,以判定輸入的每個幀是否為斷句點。優選地,所述RNN可以是長短時記憶(LSTM)神經網絡或門控循環單元(GRU)神經網絡。ANN和全連接層的參數是基于包括接在所述全連接層之后的Softmax層的網絡模型訓練得到的。
由此,能夠利用循環神經網絡的全局性時序特征的提取能力,實現更為準確的斷句點判斷。
優選地,將所述多個幀的斷句參數輸入經訓練的ANN包括:將所述多個幀的斷句參數輸入經訓練的卷積神經網絡(CNN);以及將所述CNN的輸出特征送入經訓練的所述RNN。通過引入CNN,能夠利用CNN的局部特征提取能力,上述能力與RNN的全局性時序特征的提取能力相結合,能夠實現更為精準的斷句點判斷。
獲取的所述多個幀的斷句參數可以包括如下至少一項:所述多個幀中每一幀的歸一化短時能量;所述多個幀中每一幀的短時過零率;所述多個幀中每一幀的歸一化短時傅里葉變換結果;以及上述三項中任意兩項或三項的組合或加權組合。由此實現基于應用的靈活參數選取。
將所述RNN的輸出特征送入全連接層,以判定輸入的每個幀是否為斷句點可以包括:將所述RNN的輸出特征送入全連接層,以判定輸入的每個幀是否為初選斷句點;以及基于預定規則對所述初選斷句點進行篩選以選出終選斷句點。由此進一步優化斷句點的選擇。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京深鑒智能科技有限公司,未經北京深鑒智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810575092.4/2.html,轉載請聲明來源鉆瓜專利網。





