[發明專利]樣本分組優化方法、裝置、設備及存儲介質在審
| 申請號: | 202210585746.8 | 申請日: | 2022-05-27 |
| 公開(公告)號: | CN115061994A | 公開(公告)日: | 2022-09-16 |
| 發明(設計)人: | 嚴正;劉鵬;劉玉宇;肖京 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/21 | 分類號: | G06F16/21;G06F16/2458 |
| 代理公司: | 北京市京大律師事務所 11321 | 代理人: | 姚維 |
| 地址: | 518033 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 樣本 分組 優化 方法 裝置 設備 存儲 介質 | ||
本發明涉及數據處理技術領域,公開了一種樣本分組優化方法、裝置、設備及存儲介質。本方法包括:通過構建的樣本數據集,確定樣本數據集中每個樣本數據的分組數據;根據分組數據中包含的元素的個數和樣本數據,對元素進行數據拆解,得到發散數據;根據發散數據,對樣本數據進行聚合計算,得到樣本數據集的目標分組數據;獲取目標分組數據的特征值組合,并基于特征值組合和預設時間段內每個元素的特征值組合,確定目標分組數據的標簽;基于目標分組數據的標簽和預設分組標簽的匹配結果,對目標分組數據進行分組。本發明通過對當前分組方式進行優化,解決了元素組合過程中無法等概率地使用所有元素,同時又占用較少存儲和計算資源的技術問題。
技術領域
本發明涉及數據處理技術領域,尤其涉及一種樣本分組優化方法、裝置、設備及存儲介質。
背景技術
在工程實踐中,有時需要從一些分組中取組合,從含有N個元素的分組中取兩兩組合,總的組合數量與分組內的元素個數N大體呈二次方的關系。這種關系有時不是我們想要的,比如在深度學習中,期望的樣本數量要兼顧不同分組和分組內的元素數量,即分組內的元素越多,所取的組合數量可以更多,但不能以二次方增多,否則元素數量少的分組在訓練中所占的權重就太小了。
綜上所述,若直接對每個分組取完全組合,則每個分組取出的組合數量與分組內的元素個數大體呈二次方的關系,有時不是我們想要的。如果對元素個數較多的分組取完全組合后,再隨機抽取一部分,則會占用較多的存儲和計算資源。比如一個分組內有10萬個元素,則完全組合的數量是45億對,會占用較多的存儲和計算資源。且隨機抽取的方法導致組合內的元素有較大的不確定性,不能充分利用元素的多樣性。因此,如何對當前分組方式進行優化,等概率地使用所有元素,同時又占用較少存儲和計算資源,成了本領域技術人員需要解決的技術問題。
發明內容
本發明的主要目的是通過對當前分組方式進行優化,解決了元素組合過程中無法等概率地使用所有元素,同時又占用較少存儲和計算資源的技術問題。
本發明第一方面提供了一種樣本分組優化方法,包括:從預設數據庫中獲取預設字段對應的元素作為樣本數據集;基于所述樣本數據集,構建所述樣本數據集中每個所述樣本數據的分組數據;根據所述分組數據中包含的元素的個數和所述樣本數據,對所述元素進行數據拆解,得到發散數據;根據所述發散數據,對所述樣本數據進行聚合計算,得到所述樣本數據集的目標分組數據;獲取所述目標分組數據的特征值組合,并基于所述特征值組合和預設時間段內每個元素的特征值組合,確定所述目標分組數據的標簽;基于所述目標分組數據的標簽和預設分組標簽的匹配結果,對所述目標分組數據進行分組。
可選地,在本發明第一方面的第一種實現方式中,所述構建所述樣本數據集中每個所述樣本數據的分組數據包括:根據所述樣本數據確定對應的中心數據;基于所述中心數據和預設的浮動區間,構建所述樣本數據集中每個所述樣本數據的分組數據。
可選地,在本發明第一方面的第二種實現方式中,所述根據所述分組數據中包含的元素的個數和所述樣本數據,對所述元素進行數據拆解,得到發散數據包括:將所述分組數據中包含的元素的個數、所述樣本數據和所述分組數據中的元素按照預設的方式進行排列組合,得到所述發散數據。
可選地,在本發明第一方面的第三種實現方式中,所述根據所述發散數據,對所述樣本數據進行聚合計算,得到所述樣本數據集的目標分組數據包括:獲取所述樣本數據集的預設聚合條件;基于所述預設聚合條件對所述發散數據進行統計分析,得到所述樣本數據集的目標分組數據。
可選地,在本發明第一方面的第四種實現方式中,所述獲取所述目標分組數據的特征值組合包括:獲取攜帶所述元素對應特征的預設特征組合模板;對所述特征組合模板中的各特征和所述屬性數據,確定所述目標分組數據在所述特征上的表現數據;得到所述表現數據與對所述特征預設的基準數據的比值,并將所述比值確定為所述特征對應的特征值;將各所述特征值,按照對應特征在所述特征組合模板中的順序進行排列,得到所述目標分組數據的特征值組合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210585746.8/2.html,轉載請聲明來源鉆瓜專利網。





