[發明專利]訓練樣本的處理方法、語音質檢方法及裝置在審
| 申請號: | 202211572561.X | 申請日: | 2022-12-08 |
| 公開(公告)號: | CN116153299A | 公開(公告)日: | 2023-05-23 |
| 發明(設計)人: | 李長林;夏粉;肖冰;曹磊;羅奇帥 | 申請(專利權)人: | 馬上消費金融股份有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/08;G10L15/18;G10L25/51;G10L25/27;G10L15/26;G06N20/00 |
| 代理公司: | 北京天昊聯合知識產權代理有限公司 11112 | 代理人: | 彭瑞欣;馮建基 |
| 地址: | 401121 重慶市渝北區*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練 樣本 處理 方法 語音 質檢 裝置 | ||
本申請提供了一種訓練樣本的處理方法、語音質檢方法及裝置,該處理方法包括:通過分類預測模型對樣本數據集進行分類預測,得到每個樣本數據對應的預測類型及置信度;獲取每個樣本數據的真實類型,將真實類型和預測類型不匹配的樣本數據確定為誤差樣本數據并統計數量;獲取每個真實類型的樣本數據集的置信度分布數據;根據誤差樣本數據的數量和置信度分布數據,計算每個真實類型的樣本數據集的均衡度得分;將均衡度得分小于預設均衡度閾值的真實類型確定為目標類型,針對目標類型的樣本數據集執行數據增廣處理。該方法根據分類預測和置信度分布數據確定目標類型的樣本數據并執行數據增廣處理,節省全局數據擴增的成本,提升模型的泛化能力。
技術領域
本申請涉及數據處理領域,特別涉及一種訓練樣本的處理方法、語音質檢方法及裝置。
背景技術
數據多樣性問題近年在機器學習領域越來越得到關注。當數據的多樣性分布達不到實際場景的覆蓋率時,需要預測的數據多樣性分布和用于訓練的數據多樣性分布表現出明顯的偏移,會導致模型的性能較差。
在相關技術中,很難通過提升模型的泛化能力來解決數據多樣性問題導致的模型性能較差的問題,故解決上述問題的主要方法包括以下兩個:人工構造、篩選、標注樣本,該方法效果佳,但需要耗費大量人力物力,且需要領域內的專業人員完成;數據增強,該方法簡單易操作,能解決人力物力成本高的問題,但若使用不當,易引入噪聲,影響模型的效果。上述兩種方法目的均是通過增加訓練數據的多樣性,從而提高模型泛化能力,但是都未對原始數據進行科學分析。在原始數據中,有些類別多樣性足夠,不需要增加數據;有些類別多樣性不夠,需要豐富該類別的多樣性。如果盲目進行全局數據擴增,會造成資源(時間成本、機器成本等)的浪費,甚至起到反作用。
發明內容
本申請提供一種訓練樣本的處理方法、語音質檢方法及裝置,用于基于分類預測和置信度分析篩選出需要進行數據增廣的樣本數據,從而有針對性地對選出的部分數據進行數據增廣,節約成本,提高效率。
第一方面,本申請提供了一種訓練樣本的處理方法,包括:
通過分類預測模型對樣本數據集進行分類預測,得到每個樣本數據對應的預測類型以及預測類型的置信度;
獲取每個樣本數據的真實類型,將真實類型和預測類型不匹配的樣本數據確定為誤差樣本數據,計算每個真實類型的樣本數據集中包含的誤差樣本數據的數量;
針對每個真實類型,獲取真實類型的樣本數據集的置信度分布數據;其中,預先設置多個置信度區間,置信度分布數據用于表征真實類型的樣本數據位于每個置信度區間的數量;
根據每個真實類型的樣本數據集中包含的誤差樣本數據的數量,以及每個真實類型的樣本數據集的置信度分布數據,計算每個真實類型的樣本數據集的均衡度得分;
將均衡度得分小于預設均衡度閾值的真實類型確定為目標類型,針對目標類型的樣本數據集執行數據增廣處理。
第二方面,本申請提供了一種訓練樣本的處理裝置,包括:
分類預測模塊,用于通過分類預測模型對樣本數據集進行分類預測,得到每個樣本數據對應的預測類型以及預測類型的置信度;
誤差統計模塊,用于獲取每個樣本數據的真實類型,將真實類型和預測類型不匹配的樣本數據確定為誤差樣本數據,計算每個真實類型的樣本數據集中包含的誤差樣本數據的數量;
分布獲取模塊,用于針對每個真實類型,獲取真實類型的樣本數據集的置信度分布數據;其中,預先設置多個置信度區間,置信度分布數據用于表征真實類型的樣本數據位于每個置信度區間的數量;
均衡度計算模塊,用于根據每個真實類型的樣本數據集中包含的誤差樣本數據的數量,以及每個真實類型的樣本數據集的置信度分布數據,計算每個真實類型的樣本數據集的均衡度得分;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于馬上消費金融股份有限公司,未經馬上消費金融股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211572561.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:減重式液蛋添加設備
- 下一篇:一種氣霧型消煙劑及制備方法





