[發明專利]數據預處理方法、裝置、計算機設備及存儲介質有效
| 申請號: | 202110281387.2 | 申請日: | 2021-03-16 |
| 公開(公告)號: | CN112668673B | 公開(公告)日: | 2021-06-08 |
| 發明(設計)人: | 朱文熙;衡建宇;鄧民文;朱泓霖 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 祝亞男 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 預處理 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種數據預處理方法,其特征在于,所述方法應用于分布式模型訓練系統中,所述分布式模型訓練系統包含至少兩個節點,至少兩個所述節點用于同步進行對樣本數據的預處理,所述方法包括:
獲取待處理的樣本數據集;所述樣本數據集中包含至少兩個所述樣本數據;
基于所述樣本數據集,以第二條件為約束,確定各個迭代步分別對應的至少一個樣本數據子集,所述樣本數據子集用以指示在一個所述迭代步中,至少兩個所述節點預處理的樣本數據的集合;
基于各個所述迭代步分別對應的至少一個所述樣本數據子集,以至少兩個所述節點在各個所述迭代步進行預處理的總時間最小為約束,確定至少兩個所述節點在各個所述迭代步中分別預處理的樣本數據;
基于至少兩個所述節點在各個所述迭代步中分別預處理的樣本數據,生成預處理計劃;所述預處理計劃用于指示至少兩個所述節點在各個迭代步中進行預處理的樣本數據;
基于所述預處理計劃,指示至少兩個所述節點通過各個所述迭代步對至少兩個所述樣本數據進行預處理;預處理后的所述樣本數據用于在對應的所述迭代步中提供給對應的模型進行模型訓練;
其中,所述基于所述樣本數據集,以所述第二條件為約束,確定各個所述迭代步分別對應的至少一個樣本數據子集,包括:
基于所述第二條件以及前i-1個所述迭代步中至少兩個所述節點已完成預處理且未被使用的樣本數據,以及所述樣本數據集,確定前i個所述迭代步對應的至少一個樣本數據子集中所能包含的樣本數據的數量最小值和數量最大值;
基于所述數量最小值和所述數量最大值,確定前i個所述迭代步對應的至少一個樣本數據子集;
基于前i個所述迭代步對應的至少一個樣本數據子集,以及前i-1個所述迭代步對應的至少一個樣本數據子集,確定第i個所述迭代步對應的至少一個樣本數據子集,第i個所述迭代步是各個所述迭代步中的任意一個。
2.根據權利要求1所述的方法,其特征在于,所述第二條件包括:
所述節點在當前迭代步中預處理的樣本數據的數量,與所述節點已完成預處理且未被使用的樣本數據的數量之和大于數量閾值;所述未被使用的樣本數據是在所述當前迭代步之前未被提供給對應的模型進行模型訓練的樣本數據;
以及,所述節點在當前迭代步中預處理的樣本數據的數據量,與所述節點已完成預處理且未被使用的樣本數據的數據量之和不大于數據量閾值。
3.根據權利要求1所述的方法,其特征在于,所述基于所述第二條件以及前i-1個所述迭代步中至少兩個所述節點已完成預處理且未被使用的樣本數據,以及所述樣本數據集,確定前i個所述迭代步對應的至少一個樣本數據子集中所能包含的樣本數據的數量最小值和數量最大值,包括:
基于所述第二條件中的數量閾值,以及所述節點的數量,確定前i個所述迭代步對應的至少一個樣本數據子集中所能包含的樣本數據的所述數量最小值;
基于所述第二條件中的數據量閾值,所述數量最小值以及前i-1個所述迭代步中至少兩個所述節點已完成預處理且未被使用的樣本數據,確定前i個所述迭代步對應的至少一個樣本數據子集中所能包含的樣本數據的所述數量最大值。
4.根據權利要求3所述的方法,其特征在于,所述基于所述第二條件中的所述數據量閾值,所述數量最小值以及前i-1個所述迭代步中至少兩個所述節點已完成預處理且未被使用的樣本數據,確定前i個所述迭代步對應的至少一個樣本數據子集中所能包含的樣本數據的所述數量最大值,包括:
按照指定步長,對所述數量最小值進行增大調節,直至將基于調節后的數據數量獲取的第i個迭代步對應的樣本數據子集分配給至少兩個所述節點后,至少兩個所述節點對應的緩沖區內的樣本數據的數據量均大于所述數據量閾值時,獲取前一次增大調節后的數據數量作為所述數量最大值;
其中,所述節點對應的緩沖區內的樣本數據,包括第i個所述迭代步中所述節點所需預處理的樣本數據,以及前i-1個所述迭代步中所述節點已完成預處理且未被使用的樣本數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110281387.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種客戶識別方法及裝置
- 下一篇:一種化學機械研磨方法及其分析系統
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





