[發明專利]基于神經網絡模型的語音處理方法、裝置及電子設備在審
| 申請號: | 202110304510.8 | 申請日: | 2021-03-22 |
| 公開(公告)號: | CN112951218A | 公開(公告)日: | 2021-06-11 |
| 發明(設計)人: | 唐浩雨 | 申請(專利權)人: | 百果園技術(新加坡)有限公司 |
| 主分類號: | G10L15/16 | 分類號: | G10L15/16;G10L15/04;G10L15/22;G10L15/26 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 莎日娜 |
| 地址: | 新加坡巴西班讓路*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 神經網絡 模型 語音 處理 方法 裝置 電子設備 | ||
1.一種基于神經網絡模型的語音處理方法,其特征在于,所述方法包括:
獲取待處理的語音信號;
選取所述語音信號中的第一時間點片段;
以所述第一時間點片段為基準,通過第一窗口截取所述語音信號的目標片段;
根據所述目標片段,得到關于所述語音信號的語音識別文字。
2.根據權利要求1所述的方法,其特征在于,所述第一窗口為伯努利分布控制的軟窗口或者長度固定的硬窗口。
3.根據權利要求1所述的方法,其特征在于,所述以所述第一時間點片段為基準,通過第一窗口截取所述語音信號的目標片段,包括:
以所述第一時間點片段為基準,通過第一窗口向前和/或向后截取所述語音信號的部分片段;
根據所述第一時間點片段以及截取的部分片段,生成所述語音信號的目標片段。
4.根據權利要求3所述的方法,其特征在于,所述目標片段為第一時間點片段、第一片段以及第二片段的結合;
其中,所述第一片段為通過所述第一窗口向前截取的所述語音信號的部分片段,所述第二片段為通過所述第一窗口向后截取的所述語音信號的部分片段。
5.根據權利要求1所述的方法,其特征在于,所述根據所述目標片段,得到關于所述語音信號的語音識別文字,包括:
對所述目標片段進行計算,得到第一矩陣;
對所述第一矩陣進行歸一化處理,得到第二矩陣;
根據所述第二矩陣,得到關于所述語音信號的語音識別文字。
6.根據權利要求5所述的方法,其特征在于,所述根據所述第二矩陣,得到關于所述語音信號的語音識別文字,包括:
根據所述第二矩陣,得到關于所述語音信號的隱含特征;
將所述隱含特征進行解碼處理,得到關于所述語音信號的語音識別文字。
7.根據權利要求5所述的方法,其特征在于,所述對所述目標片段進行計算,得到第一矩陣,包括:
獲取第一矩陣參數、第二矩陣參數以及第三矩陣參數;
將所述第一矩陣參數與所述第一時間點片段相乘,得到第一子矩陣;
將所述第二矩陣參數與所述目標片段相乘,得到第二子矩陣;
將所述第三矩陣參數與所述目標片段相乘,得到第三子矩陣;
其中,所述第一矩陣包括:所述第一子矩陣、所述第二子矩陣以及所述第三子矩陣。
8.一種基于神經網絡模型的語音處理裝置,其特征在于,所述裝置包括:
第一獲取模塊,用于獲取待處理的語音信號;
第一選取模塊,用于選取所述語音信號中的第一時間點片段;
第一處理模塊,用于以所述第一時間點片段為基準,通過第一窗口截取所述語音信號的目標片段;
第二獲取模塊,用于根據所述目標片段,得到關于所述語音信號的語音識別文字。
9.一種電子設備,其特征在于,包括:處理器、通信接口、存儲器和通信總線;其中,處理器、通信接口以及存儲器通過通信總線完成相互間的通信;
存儲器,用于存放計算機程序;
處理器,用于執行存儲器上所存放的程序時,實現如權利要求1至7任一項所述的基于神經網絡模型的語音處理方法中的步驟。
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該程序被處理器執行時實現如權利要求1至7任一項所述的基于神經網絡模型的語音處理方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百果園技術(新加坡)有限公司,未經百果園技術(新加坡)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110304510.8/1.html,轉載請聲明來源鉆瓜專利網。





