[發明專利]一種語音端點檢測模型的構建方法和裝置在審
| 申請號: | 202211278320.4 | 申請日: | 2022-10-19 |
| 公開(公告)號: | CN115691562A | 公開(公告)日: | 2023-02-03 |
| 發明(設計)人: | 馮汝毅;曾熙璘;方輝 | 申請(專利權)人: | 廣州廣哈通信股份有限公司 |
| 主分類號: | G10L25/87 | 分類號: | G10L25/87;G10L25/30;G10L25/24 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 江嘉玲 |
| 地址: | 510663 廣東省廣州市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 端點 檢測 模型 構建 方法 裝置 | ||
1.一種語音端點檢測模型的構建方法,其特征在于,包括:
獲取初始語音信號數據集;其中,所述初始語音信號數據集中包含若干音頻數據樣本;
通過預先構建的第一語音端點檢測模型,對每個所述音頻數據樣本的語音幀進行標注,并將所有標注好的語音幀整合成一個語音信號合成樣本;
將所述語音信號合成樣本隨機分割成不同時長的語音段,并在每個所述語音段的末端添加任意時長的靜音段,以及,在每個所述語音段中添加不同分貝和不同類型的噪聲,得到若干語音信號樣本;
通過若干所述語音信號樣本對預先構建的深度學習模型進行訓練和超參數調整,得到第二語音端點檢測模型;其中,所述深度學習模型由GRU層、Linear層和Sigmoid層組成;
通過模型壓縮方法對所述第二語音端點檢測模型進行壓縮,得到最終的語音端點檢測模型。
2.如權利要求1所述的語音端點檢測模型的構建方法,其特征在于,所述通過若干所述語音信號樣本對預先構建的深度學習模型進行訓練和超參數調整,得到第二語音端點檢測模型,包括:
從若干所述語音信號樣本中劃分預設比例的語音訓練數據集和語音驗證數據集;
對所述語音訓練數據集中的每個語音信號樣本進行MFCC特征提取,得到所述語音訓練數據集中每個語音信號樣本的MFCC特征數據,以構成MFCC特征數據集;
對每個所述MFCC特征數據進行一階差分運算,得到每個所述MFCC特征數據的動態特征向量,以構成動態特征向量數據集;
將所述MFCC特征數據集和所述動態特征向量數據集輸入至預先構建的深度學習模型中,并通過Adam優化器對所述深度學習模型和參數調整,得到訓練后的深度學習模型;
通過所述語音驗證數據集和網絡搜素算法,對所述訓練后的深度學習模型進行超參數調整,得到第二語音端點檢測模型。
3.如權利要求2所述的語音端點檢測模型的構建方法,其特征在于,所述對所述語音訓練數據集中的每個語音信號樣本進行MFCC特征提取,得到所述語音訓練數據集中每個語音信號樣本的MFCC特征數據,以構成MFCC特征數據集,包括:
對所述語音訓練數據集中的每個語音信號樣本進行預處理,得到若干預處理后的語音信號樣本;
對每個所述預處理后的語音信號樣本進行快速傅里葉變換,得到每個所述預處理后的語音信號樣本對應的語音線性頻譜;
通過Mel濾波器組對每個所述語音線性頻譜進行濾波,得到每個所述語音線性頻譜對應的Mel頻譜特征;
計算每個所述Mel頻譜特征的對數能量,得到每個所述Mel頻譜特征對應的對數頻譜;
對每個所述對數頻譜進行離散余弦變換,得到每個所述對數頻譜對應的MFCC特征數據,以構成MFCC特征數據集。
4.如權利要求3所述的語音端點檢測模型的構建方法,其特征在于,所述對所述語音訓練數據集中的每個語音信號樣本進行預處理,得到若干預處理后的語音信號樣本,包括:
對所述語音訓練數據集中的每個語音信號樣本進行預加重處理,得到若干預加重處理后的語音信號樣本;
對每個所述預加重處理后的語音信號樣本進行分幀處理,得到若干分幀處理后的語音信號樣本;
對每個所述分幀處理后的語音信號樣本進行加窗處理,得到若干預處理后的語音信號樣本。
5.如權利要求2所述的語音端點檢測模型的構建方法,其特征在于,所述通過所述語音驗證數據集和網絡搜素算法,對所述訓練后的深度學習模型進行超參數調整,得到第二語音端點檢測模型,包括:
將所述語音驗證數據集輸入至所述訓練后的深度學習模型中,并通過網絡搜素算法對所述訓練后的深度學習模型進行超參數調整;
計算不同超參數下的所述訓練后的深度學習模型檢測語音端點的幀準確率、語音命中率和誤報率;
根據不同所述超參數對應的幀準確率、語音命中率和誤報率,計算不同所述超參數對應的評估指標值;
比較不同超參數下所述訓練后的深度學習模型的評估指標值,將所述評估指標值最大的超參數下的所述訓練后的深度學習模型,作為第二語音端點檢測模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州廣哈通信股份有限公司,未經廣州廣哈通信股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211278320.4/1.html,轉載請聲明來源鉆瓜專利網。





