[發明專利]一種基于神經網絡的語音質量評估方法在審
| 申請號: | 202210004522.3 | 申請日: | 2022-01-05 |
| 公開(公告)號: | CN114360583A | 公開(公告)日: | 2022-04-15 |
| 發明(設計)人: | 盧晨華;黃志華;郭創建 | 申請(專利權)人: | 新疆大學 |
| 主分類號: | G10L25/60 | 分類號: | G10L25/60;G10L25/30;G06N3/04 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 830017 新疆維吾爾自治*** | 國省代碼: | 新疆;65 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 神經網絡 語音 質量 評估 方法 | ||
本發明公開了一種基于神經網絡的語音質量評估方法,所述的方法包括:音頻轉換模塊,用于將音頻轉換成可以在神經網絡模型中處理的格式;加噪模塊,用于生成與純凈語音配對的帶噪語音;特征提取模塊,用于提取輸入神經網絡的特征;神經網絡模塊,用于評估輸入模型特征所對應的語音質量分數;損失函數,用于神經網絡的訓練。本發明通過提取語音的時頻特征,利用神經網絡評估出語音質量分數。在進行語音質量評估時不需要純凈語音作為參考。
技術領域
本發明涉及音頻技術領域,尤其涉及一種基于神經網絡的語音質量評估方法。
背景技術
語音是人們日常生活中交流的一種最快捷、最高效的方式。但是現實生活中語音信號往往會被各種噪聲所干擾,從而影響語音質量。因此對帶噪信號及去噪處理后的信號的語音質量的評估變得尤為重要。
語音信號質量評估方法主要有兩類:采用人工主觀評估的方法和有參考信號的客觀評估方法。采用人工主觀進行語音質量評估的方法費時費力,需要很大的人力成本,且有信息安全的風險;有參考信號的評估方法適用于實驗室環境,在現實生活場景中往往缺乏配對的參考信號,不具有實用性。
現實生活中待訓練和待評估的語音數據采用各種各樣的數據格式進行保存,不同的數據格式可能在不同的處理方法中不兼容。
發明內容
鑒于以上問題,本發明提出一種基于神經網絡的語音質量評估方法,所述方法包括:
音頻轉換模塊,用于將待訓練和待評估的音頻信號轉換成可以在神經網絡模塊中處理的格式;
與所述音頻轉換模塊相連的加噪模塊,用于將經過轉換后的純凈語音進行加噪產生神經網絡模型的訓練數據。
特征提取模塊,用于對待訓練或者待評估的語音進行時頻特征提取從而輸入神經網絡模塊。
與特征提取模塊的輸出相連的神經網絡模塊,用于預測與輸入語音特征相對應的評估分數。
損失函數,用于神經網絡的訓練。
在本方案中,通過音頻轉換模塊將不同格式的音頻轉換成本方法所適用的特定格式,提高了本方法的實用性。通過將純凈語音輸入加噪模塊產生之相對應的帶噪語音,并使用PESQ算法對帶噪語音進行標記用于產生神經網絡的訓練數據。使用特征提取模塊將待訓練數據進行批量特征提取,輸入神經網絡模塊。
優選地所述神經網絡模塊包括池化層、分組長短時記憶層、全連接層、丟棄層等。
所述的化層采用自適應平均池化層,用于對特征維度進行壓縮。
所述的分組長短時記憶層,采用一種分組策略和表達重組策略,用于高效提取特征在時間維度上的上下文特征產生中間特征。
優選地所述的分組長短時記憶層的分組策略將輸入特征和隱藏狀態分成K組,分別表示為:
{,...}和{,...}。在輸出層將所有的隱藏狀態進行拼接。所述的表達重組策略,將輸出的特征添加一維變換成(K,N/K),其中N表示特征維度;然后再對其進行維度交換,變換為(K,N/K);最后將特征的形狀變回N維。
在本方案中,通過在分組長短時記憶層中采用分組策略可以降低模型模型復雜度;采用表達重組策略可以恢復因為分組而造成的特征上下文相關性的缺失。
優選地所述的分組長短時記憶層在參數初始化時,將每個LSTM的遺忘門偏差設置為-3,其它參數設置為0。
在本方案中,通過每個LSTM的遺忘門偏差初始化的設置,可以使LSTM更關注臨近時刻的上下文關系。
所述的全連接層,用于將長短時記憶層產生的中間特征映射到訓練目標。
所述的丟棄層,用于緩解神經網絡過擬合問題。
優選地,所述損失函數為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新疆大學,未經新疆大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210004522.3/2.html,轉載請聲明來源鉆瓜專利網。





