[發明專利]基于神經網絡模型的語音處理方法、裝置及電子設備在審
| 申請號: | 202110304510.8 | 申請日: | 2021-03-22 |
| 公開(公告)號: | CN112951218A | 公開(公告)日: | 2021-06-11 |
| 發明(設計)人: | 唐浩雨 | 申請(專利權)人: | 百果園技術(新加坡)有限公司 |
| 主分類號: | G10L15/16 | 分類號: | G10L15/16;G10L15/04;G10L15/22;G10L15/26 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 莎日娜 |
| 地址: | 新加坡巴西班讓路*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 神經網絡 模型 語音 處理 方法 裝置 電子設備 | ||
本發明實施例提供了一種基于神經網絡模型的語音處理方法、裝置及電子設備,涉及語音識別技術領域。該方法包括:獲取待處理的語音信號;選取所述語音信號中的第一時間點片段;以所述第一時間點片段為基準,通過第一窗口截取所述語音信號的目標片段;根據所述目標片段,得到關于所述語音信號的語音識別文字。上述方案,可以降低encoder核心部件MHA的感知域,即每個隱層的單元僅需要感知其上層對應的部分語音片段即可,從而可以減少計算量。
技術領域
本發明涉及語音識別技術領域,尤其涉及一種基于神經網絡模型的語音處理方法、裝置及電子設備。
背景技術
針對目前的直播軟件,常常需要對數量繁雜的直播間主播的內容進行監管,包括圖像和聲音,對于聲音,直播中的聲音主要是主播說出的語音。對于語音內容的監管,其中一個方法就是對于語音進行識別,轉換成文字內容,然后對文字內容進行甄別。
在語音識別的過程中,需要使用端到端深度神經網絡對于切分過的一小段一小段的語音進行建模,其中較為常用的損失函數在神經網絡模型seq2seq結構有編碼器encoder和注意力解碼器attention-decoder兩個部分,encoder對于輸入的語音特征進行編碼,然后decoder對于編碼進行結算得到文字存在概率矩陣,然后可以通過一定的搜索算法在文字存在概率矩陣得到文字串。但是,對于seq2seq基于深度學習神經網絡結構transformer模型,transformer中的encoder核心部件多頭注意力(Multihead attenbtion,MHA)的感知域較大,每個隱層的單元需要感知上層的整個序列,因此導致計算資源消耗較大。
發明內容
本發明提供一種基于神經網絡模型的語音處理方法、裝置及電子設備,以便在一定程度上解決語音識別的過程中的計算資源消耗較大的問題。
在本發明實施的第一方面,提供了一種基于神經網絡模型的語音處理方法,所述方法包括:
獲取待處理的語音信號;
選取所述語音信號中的第一時間點片段;
以所述第一時間點片段為基準,通過第一窗口截取所述語音信號的目標片段;
根據所述目標片段,得到關于所述語音信號的語音識別文字。
在本發明實施的第二方面,提供了一種基于神經網絡模型的語音處理裝置,所述裝置包括:
第一獲取模塊,用于獲取待處理的語音信號;
第一選取模塊,用于選取所述語音信號中的第一時間點片段;
第一處理模塊,用于以所述第一時間點片段為基準,通過第一窗口截取所述語音信號的目標片段;
第二獲取模塊,用于根據所述目標片段,得到關于所述語音信號的語音識別文字。
在本發明實施的第三方面,還提供了一種電子設備,包括處理器、通信接口、存儲器和通信總線,其中,處理器,通信接口,存儲器通過通信總線完成相互間的通信;
存儲器,用于存放計算機程序;
處理器,用于執行存儲器上所存放的程序時,實現如上所述的基于神經網絡模型的語音處理方法中的步驟。
在本發明實施的第四方面,還提供了一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現如上所述的基于神經網絡模型的語音處理方法。
針對在先技術,本發明具備如下優點:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百果園技術(新加坡)有限公司,未經百果園技術(新加坡)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110304510.8/2.html,轉載請聲明來源鉆瓜專利網。





