[發明專利]訓練數據重采樣方法、裝置、存儲介質及電子設備有效
| 申請號: | 201811327417.3 | 申請日: | 2018-11-08 |
| 公開(公告)號: | CN109635034B | 公開(公告)日: | 2020-03-03 |
| 發明(設計)人: | 李偉健;王長虎 | 申請(專利權)人: | 北京字節跳動網絡技術有限公司 |
| 主分類號: | G06F16/26 | 分類號: | G06F16/26;G06F16/28 |
| 代理公司: | 北京英創嘉友知識產權代理事務所(普通合伙) 11447 | 代理人: | 魏嘉熹;南毅寧 |
| 地址: | 100144 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練 數據 采樣 方法 裝置 存儲 介質 電子設備 | ||
本公開涉及一種訓練數據重采樣方法、裝置、存儲介質及電子設備,包括獲取第一時段內的第一原始數據;計算第一原始數據中多個預設分類分別所占的第一比例;根據第一比例的大小關系按照預設規則對多個預設分類進行排序,獲得第一排序結果;根據各預設分類的排名和預設對應關系,確定各預設分類對應的采樣比例,所述預設對應關系為所述排名與所述采樣比例之間的對應關系;根據多個預設分類分別對應的采樣比例對用于建模的訓練數據進行重采樣。這樣,從而解決分類模型對小類別不友好的問題,提高通過該訓練數據訓練得到的分類模型針對不同應用的分類準確性,從而提高用戶體驗。
技術領域
本公開涉及數據挖掘領域,具體地,涉及一種訓練數據重采樣方法、裝置、存儲介質及電子設備。
背景技術
在機器學習中,訓練數據中的針對分類模型中不同分類的樣本數目經常可能出現相差巨大的情況,例如,在N個訓練數據中,屬于第一類的樣本數目可能與屬于第二類的樣本數目以及屬于第三類的樣本數目等都相差巨大(例如屬于第一類的樣本數目可能占到N個訓練數據中的90%,屬于第二類和第三類的樣本數目可能一共才占到N個訓練數據中的10%),這樣直接用樣本數目不均衡的訓練數據去對分類模型進行訓練時,機器學習算法傾向于產生不太令人滿意的分類模型,例如可能會造成分類模型對于訓練數據中樣本數目較少的分類欠擬合、對訓練模型中樣本數量較多的分類過擬合的情況,實際上,如果不均衡比例超過4:1,分類模型就會偏向于大的類別而忽略小的類別。因此,用沒有處理過的不均衡的訓練數據訓練出的分類模型可能對實際數據的分類效果并不理想。目前,針對訓練數據不均衡的情況,通常會采用對訓練數據進行重采樣的方法。
發明內容
本公開的目的是提供一種訓練數據重采樣方法、裝置、存儲介質及電子設備,能夠針對訓練數據不均衡的情況,根據實際的原始數據中不同分類所占的比例來對訓練數據進行重采樣處理,從而解決分類模型對小類別不友好的問題。
為了實現上述目的,本公開提供一種訓練數據重采樣方法,所述方法包括:
獲取第一時段內的第一原始數據;
計算所述第一原始數據中多個預設分類分別所占的第一比例;
根據所述第一比例的大小關系按照預設規則對所述多個預設分類進行排序,獲得第一排序結果;
根據各預設分類的排名和預設對應關系,確定各預設分類對應的采樣比例,所述預設對應關系為所述排名與所述采樣比例之間的對應關系;
根據所述多個預設分類分別對應的所述采樣比例對用于建模的訓練數據進行重采樣。
可選地,在所述根據所述第一比例的大小關系按照預設規則對所述多個預設分類進行排序,獲得第一排序結果之后,所述方法還包括:
獲取第二時段內的第二原始數據;
計算所述第二原始數據中所述多個預設分類分別所占的第二比例;
根據所述第二比例的大小關系按照所述預設規則對所述多個預設分類進行排序,獲得第二排序結果;
若所述第一排序結果和所述第二排序結果一致,執行所述根據各預設分類的排名和預設對應關系,確定各預設分類對應的采樣比例的步驟。
可選地,所述方法還包括:
若所述第一排序結果和所述第二排序結果不一致時,重新確定所述第二時段,并將所述第二排序結果確定為第一排序結果;
返回所述獲取第二時段內的第二原始數據的步驟。
可選地,當至少兩個預設分類的比例相同時,按照所述至少兩個預設分類的優先級確定所述至少兩個預設分類的排序。
本公開還提供一種訓練數據重采樣裝置,所述裝置包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京字節跳動網絡技術有限公司,未經北京字節跳動網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811327417.3/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





