[發明專利]一種面向不均衡語音數據集的數據生成方法及系統在審
| 申請號: | 202110069645.0 | 申請日: | 2021-01-19 |
| 公開(公告)號: | CN112861928A | 公開(公告)日: | 2021-05-28 |
| 發明(設計)人: | 張曉俊;范子琦;陶智;伍遠博;周長偉 | 申請(專利權)人: | 蘇州大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 蘇州市中南偉業知識產權代理事務所(普通合伙) 32257 | 代理人: | 許燕萍 |
| 地址: | 215000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 均衡 語音 數據 生成 方法 系統 | ||
本發明公開了一種面向不均衡語音數據集的數據生成方法及系統,所述方法包括以下步驟:S1、將輸入樣本聚類劃分為若干聚類簇;S2、計算每個聚類簇的不均衡率,根據不均衡率確定數據生成的安全聚類簇;S3、計算安全聚類簇內少數類樣本的空間分布密度;S4、根據空間分布密度計算每個聚類簇的采樣權重;S5、根據采樣權重,在安全聚類簇內生成樣本數,基于樣本數進行樣本生成;所述系統用于實現上述方法,包括樣本聚類劃分模塊、安全聚類簇計算模塊,空間分布密度計算模塊、采樣權重計算模塊和樣本生成模塊。本發明對不均衡分布語音數據集進行樣本均衡,使其更適用于對語音數據集的均衡化處理,生成分化能力和信息價值高的少數類語音特征樣。
技術領域
本發明涉及不均衡學習技術領域,具體涉及一種面向不均衡語音數據集的數據生成方法及系統。
背景技術
不均衡學習技術廣泛用于解決各領域中數據不均衡分布的問題,不均衡樣本集對建模分類器的性能密切相關,也是機器學習領域面臨的重要挑戰之一。常用的不均衡學習技術可以分為:內部方法和外部方法。內部方法通過借助已知的先驗知識,在學習算法中使用成本調整類技術,并在訓練過程中充分利用初始不均衡數據建模分類器。外部方法是指在保持學習算法不變的情況下重新平衡外部訓練數據。
外部方法不考慮復雜的先驗知識,更適用于現實領域的不均衡數據集。外部方法包括過采樣、欠采樣和混合采樣。多數類通常是在欠采樣算法下減少樣本數,以均衡每一類的樣本分布。少數類通常通過技術生成技術來進行過采樣,以減少類別的不均衡率。合成少數過采樣技術(簡稱SMOTE)是目前最流行的過采樣算法,廣泛應用于不均衡數據集的預處理。然而,SMOTE容易產生噪聲樣本,導致不同類別樣本間的重疊增加。
基于聚類算法改進的SMOTE可以有效地解決這類問題,但大多數只考慮到了樣本類別間的不均衡分布,忽略了樣本類別內的不平衡分布。因此,在對語音信號進行處理時,可能生成代表價值和分化能力低的少數樣本,導致分類器的過擬合。
綜上所述,面向不均衡分布的語音數據樣本生成中,在基于聚類算法的SMOTE基礎上,有必要同時考慮到樣本類別內和類別間的不均衡分布情況,以盡可能多的生成差異性和信息價值大的少數樣本,提高語音分類模型的性能。
發明內容
本發明要解決的技術問題是提供一種面向不均衡語音數據集的數據生成方法,對不均衡分布語音數據集進行樣本均衡,使其更適用于對語音數據集的均衡化處理,生成分化能力和信息價值高的少數類語音特征樣。
為了解決上述技術問題,本發明提供了一種面向不均衡語音數據集的數據生成方法,其特征在于,包括以下步驟:
S1、將輸入樣本聚類劃分為若干聚類簇;
S2、計算每個聚類簇的不均衡率,根據不均衡率確定數據生成的安全聚類簇;
S3、計算安全聚類簇內少數類樣本的空間分布密度;
S4、根據空間分布密度計算每個聚類簇的采樣權重;
S5、根據采樣權重,在安全聚類簇內生成樣本數,基于樣本數進行樣本生成。
本發明一個較佳實施例中,進一步包括在步驟S1中,根據標簽類別數量設置需要劃分的聚類數量,使用k-means的聚類算法將輸入樣本聚類為k組聚類簇。
本發明一個較佳實施例中,進一步包括步驟S2中,所述不均衡率的計算方法為:
其中,Cmin和Cmaj分別代表每個簇中少數類樣本和多數類樣本的數量,選擇IR小于50%的簇作為數據生成的安全區域。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學,未經蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110069645.0/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





