[發明專利]一種樣本數據的動態平衡方法及系統有效
| 申請號: | 201910176907.6 | 申請日: | 2019-03-08 |
| 公開(公告)號: | CN111651410B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 熊杰成 | 申請(專利權)人: | 上海錸鍶信息技術有限公司 |
| 主分類號: | G06F16/16 | 分類號: | G06F16/16;G06F18/214;G06F18/241 |
| 代理公司: | 杭州鈐韜知識產權代理事務所(普通合伙) 33329 | 代理人: | 羅國新;唐靈 |
| 地址: | 201615 上海市松江區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 樣本 數據 動態平衡 方法 系統 | ||
本發明公開了一種樣本數據的動態平衡方法,所述方法包括:獲取每一個樣本數據所對應的類別信息;根據所述類別信息,將所述樣本數據存儲至對應該類別信息的類別文件夾中;根據一預設的樣本數量比例規則,從各個類別文件夾中獲取對應數量的樣本數據,并將獲取的所有樣本數據組成一新的訓練集;使用所述新的訓練集進行模型訓練,實現了自動平衡不同類別之間的樣本數據的數據量。
技術領域
本發明屬于數據處理技術領域,特別涉及一種樣本數據的動態平衡方法及系統。
背景技術
隨著計算機科學與技術的發展,機器學習算法越來越廣泛地應用于數據的分類中。一個分類神經網絡模型上線使用后,在用戶的不斷使用過程中能夠產生更多的標注數據。這些數據將會用于后續優化模型的訓練中。隨著新標注數據不斷地產生,不同類別的數據量的差異也會越來越大。比如,一個判斷是否為菜品的二分類模型,在上線之后,隨著新標注數據量的增大,導致負樣本的數量可能大于正樣本的數量。如果把產生的所有新樣本數據去做優化模型的訓練,會造成分類數據的不平衡,從而導致有的類別學習速度會很慢。
現有技術中,在進行分類神經網絡優化模型訓練時,需要獲取大量的樣本數據。如果每一次等到優化模型需要樣本數據時,再從數據庫中讀取和處理樣本數據的話,就會大大降低優化模型的訓練效率。另外,將樣本數據從數據庫中選定后,由選定的樣本數據組成的訓練集就不能改變了,也就是說不能使用數據庫中所有的樣本數據來訓練優化模型。如果將整個數據庫作為訓練集,有不能平衡不同類別之間的樣本數據的數據量。
因此,為解決上述技術問題,本發明提出一種對樣本數據進行動態平衡的方法,使數據庫中的所有樣本數據都有機會用于模型訓練,并且自動平衡不同類別之間的樣本數據的數據量,并且隨時動態加入新的樣本數據而不用停止模型訓練。
發明內容
鑒于此,本發明的目的在于提供一種樣本數據的動態平衡方法及系統,可以自動平衡不同類別的樣本數據,使所有的樣本數據均有機會被作為模型訓練。
根據上述發明目的,本發明提供一種樣本數據的動態平衡方法,所述方法包括:
S1、獲取每一個樣本數據所對應的類別信息;
S2、根據所述類別信息,將所述樣本數據存儲至對應該類別信息的類別文件夾中;
S3、根據一預設的樣本數量比例規則,從各個類別文件夾中獲取對應數量的樣本數據,并將獲取的所有樣本數據組成一新的訓練集;
S4、使用所述新的訓練集進行模型訓練。
優選地,所述步驟S1包括:
采集樣本數據;
根據構建的菜品分類模型,對每一個樣本數據進行識別分類,獲取每一個樣本數據所對應的類別信息。
優選地,所述步驟S2還包括:
在樣本數據庫中建立多個類別文件夾,每一個類別文件夾的文件夾名稱與所述類別信息相對應;
根據所述類別信息,將所述樣本數據存儲至對應該類別信息的類別文件夾中。
優選地,所述步驟S2還包括:
建立多個分類隊列,每一個分類隊列的隊列名稱與所述類別信息相對應;
在所述每一個分類隊列中,存儲一預設數量的樣本數據,所述樣本數據的分類信息與所述分類隊列的隊列名稱相對應。
優選地,所述步驟S2還包括:
當所述分類隊列為空時,獲取所述分類隊列的隊列名稱;
根據所述分類隊列的隊列名稱,獲取對應的類別信息;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海錸鍶信息技術有限公司,未經上海錸鍶信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910176907.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:燃燒換熱裝置、燃氣壁掛爐以及燃氣熱水器
- 下一篇:一種廣柑枸杞酒及其制備方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





