[發明專利]智能語音處理方法和裝置在審
| 申請號: | 201810575092.4 | 申請日: | 2018-06-06 |
| 公開(公告)號: | CN110634470A | 公開(公告)日: | 2019-12-31 |
| 發明(設計)人: | 李鑫;孟通;韓冬 | 申請(專利權)人: | 北京深鑒智能科技有限公司 |
| 主分類號: | G10L15/04 | 分類號: | G10L15/04;G10L15/16 |
| 代理公司: | 11452 北京展翼知識產權代理事務所(特殊普通合伙) | 代理人: | 張陽 |
| 地址: | 100083 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 斷句 神經網絡 語音 人工神經網絡 神經網絡計算 循環神經網絡 智能語音識別 方法和裝置 輸出特征 循環單元 語音識別 智能語音 連接層 分幀 或門 優選 判定 送入 智能 配合 | ||
1.一種智能語音處理方法,包括:
對輸入的語音進行分幀處理以獲取多個幀的斷句參數;
將所述多個幀的斷句參數作為特征值輸入經訓練的人工神經網絡(ANN),所述ANN包括循環神經網絡(RNN);
將所述RNN的輸出特征送入全連接層,以判定輸入的每個幀是否為斷句點。
2.如權利要求1所述的方法,其中,將所述多個幀的斷句參數輸入經訓練的ANN包括:
將所述多個幀的斷句參數輸入經訓練的卷積神經網絡(CNN);以及
將所述CNN的輸出特征送入經訓練的所述RNN。
3.如權利要求1所述的方法,其中,獲取的所述多個幀的斷句參數包括如下至少一項:
所述多個幀中每一幀的歸一化短時能量;
所述多個幀中每一幀的短時過零率;
所述多個幀中每一幀的歸一化短時傅里葉變換結果;以及
上述三項中任意兩項或三項的組合或加權組合。
4.如權利要求1所述的方法,其中,將所述RNN的輸出特征送入全連接層,以判定輸入的每個幀是否為斷句點包括:
將所述RNN的輸出特征送入全連接層,以判定輸入的每個幀是否為初選斷句點;以及
基于預定規則對所述初選斷句點進行篩選以選出終選斷句點。
5.如權利要求4所述的方法,其中,基于預定規則對所述初選斷句點進行篩選以選出終選斷句點包括:
對初選斷句點進行聚類,以選取每個無聲段的聚類中心作為篩選出的終選斷句點。
6.如權利要求4所述的方法,其中,基于預定規則對所述初選斷句點進行篩選以選出終選斷句點包括:
基于如下至少一項預定限制選擇終選斷句點:
相鄰斷句點之間的距離小于最大能處理語句長度;以及
終選斷句點的個數最小。
7.如權利要求1所述的方法,其中,所述RNN是長短時記憶(LSTM)神經網絡或門控循環單元(GRU)神經網絡。
8.如權利要求1所述的方法,其中,所述ANN和全連接層的參數是基于包括接在所述全連接層之后的Softmax層的網絡模型訓練得到的。
9.一種智能語音處理裝置,包括:
參數提取裝置,用于對輸入的語音進行分幀處理以獲取多個幀的斷句參數;
神經網絡計算裝置,用于將所述多個幀的斷句參數作為特征值輸入經訓練的人工神經網絡(ANN),所述ANN包括循環神經網絡(RNN);
斷句點判斷裝置,用于將所述RNN的輸出特征送入全連接層,以判定輸入的每個幀是否為斷句點。
10.如權利要求9所述的裝置,其中,神經網絡計算裝置將所述多個幀的斷句參數輸入經訓練的卷積神經網絡(CNN)和經訓練的所述RNN,以獲取用于輸入所述全連接層的輸出特征。
11.如權利要求9所述的裝置,其中,所述參數提取裝置獲取的所述多個幀的斷句參數包括如下至少一項:
所述多個幀中每一幀的歸一化短時能量;
所述多個幀中每一幀的短時過零率;
所述多個幀中每一幀的歸一化短時傅里葉變換結果;以及
上述三項中任意兩項或三項的組合或加權組合。
12.如權利要求9所述的裝置,其中,所述斷句點判斷裝置包括:
初選斷句點判斷裝置,用于將所述RNN的輸出特征送入全連接層,以判定輸入的每個幀是否為初選斷句點;以及
終選斷句點篩選裝置,用于基于預定規則對所述初選斷句點進行篩選以選出終選斷句點。
13.如權利要求12所述的裝置,其中,所述終選斷句點篩選裝置還用于:
對初選斷句點進行聚類,以選取每個無聲段的聚類中心作為篩選出的終選斷句點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京深鑒智能科技有限公司,未經北京深鑒智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810575092.4/1.html,轉載請聲明來源鉆瓜專利網。





