[發明專利]一種訓練樣本確定方法、裝置、計算機設備及存儲介質在審
| 申請號: | 202011288666.3 | 申請日: | 2020-11-17 |
| 公開(公告)號: | CN112200271A | 公開(公告)日: | 2021-01-08 |
| 發明(設計)人: | 熊偉灼;楊青 | 申請(專利權)人: | 上海優揚新媒信息技術有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N20/00 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 李婷婷 |
| 地址: | 201800 上海市嘉*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 訓練 樣本 確定 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種訓練樣本確定方法,其特征在于,包括:
確定訓練樣本集中每個訓練樣本降維處理后的目標訓練樣本;
獲取對參考樣本集中參考樣本降維處理后的目標參考樣本進行聚類處理得到的至少一個目標參考樣本簇和比例信息,所述比例信息表征所述至少一個目標參考樣本簇中第一參考樣本簇和第二參考樣本簇中目標參考樣本數量的比例,所述參考樣本晚于所述訓練樣本;
根據所述至少一個目標參考樣本簇對所有所述目標訓練樣本進行聚類處理得到分別與每個所述目標參考樣本簇對應的目標訓練樣本簇;
按照所述比例信息分別從每個所述目標訓練樣本簇中確定用于模型訓練的目標訓練樣本。
2.根據權利要求1所述的方法,其特征在于,所述確定訓練樣本集中每個訓練樣本降維處理后的目標訓練樣本,包括:
確定由多個訓練樣本構成的訓練樣本集,所述訓練樣本指示用戶的多個維度特征;
對所述訓練樣本指示的多個維度特征進行特征分類得到所述訓練樣本指示的至少一個特征組,不同的特征組屬于不同的特征類別;一個維度特征僅屬于一個特征組;
將所述特征組輸入至預訓練的與所述特征組所屬特征類別對應的特征信息確定模型得到用于表征所述特征組的特征信息;
其中,所述訓練樣本指示的至少一個特征組的特征信息構成所述訓練樣本降維處理后的目標訓練樣本。
3.根據權利要求2所述的方法,其特征在于,與目標特征類別對應的特征信息確定模型的生成過程包括:
確定用于訓練特征信息確定模型的第一樣本;
對所述第一樣本指示的多個維度特征進行特征分類得到所述第一樣本指示的至少一個特征組;
根據所述第一樣本指示的屬于所述目標特征類別的特征組生成第二樣本;
利用所述第二樣本對待訓練特征信息確定模型進行訓練生成與所述目標特征類別對應的特征信息確定模型。
4.根據權利要求1所述的方法,其特征在于,所述獲取對參考樣本集中參考樣本降維處理后的目標參考樣本進行聚類處理得到的至少一個目標參考樣本簇和比例信息,包括:
確定參考樣本集中每個參考樣本降維處理后的目標參考樣本;
對所有所述目標參考樣本進行聚類處理得到至少一個目標參考樣本簇;
根據各個所述目標參考樣本簇中的目標參考樣本數量生成比例信息。
5.根據權利要求1所述的方法,其特征在于,所述根據所述至少一個目標參考樣本簇對所有所述目標訓練樣本進行聚類處理得到分別與每個所述目標參考樣本簇對應的目標訓練樣本簇,包括:
計算所述目標訓練樣本分別與所述至少一個目標參考樣本簇中每個目標參考樣本簇的中心點之間的距離;
根據所述目標訓練樣本分別與所述至少一個目標參考樣本簇中每個所述目標參考樣本簇的中心點之間的距離,確定所述目標訓練樣本所屬的目標參考樣本簇;
將屬于同一目標參考樣本簇的所有目標訓練樣本確定為一個與所述目標參考樣本簇對應的目標訓練樣本簇。
6.根據權利要求5所述的方法,其特征在于,所述按照所述比例信息分別從每個所述目標訓練樣本簇中確定用于模型訓練的目標訓練樣本,包括:
依據所述比例信息根據各個所述目標訓練樣本簇中目標訓練樣本數量分別確定每個所述目標訓練樣本簇的抽樣數量;
按照距離所述目標訓練樣本簇的中心點的距離由近及遠的順序,從所述目標訓練樣本簇中抽取所述目標訓練樣本簇的抽樣數量的目標訓練樣本。
7.根據權利要求6所述的方法,其特征在于,所述依據所述比例信息根據各個所述目標訓練樣本簇中目標訓練樣本數量分別確定每個所述目標訓練樣本簇的抽樣數量,包括:
確定每個所述目標訓練樣本簇中目標訓練樣本數量;
根據各個所述目標訓練樣本簇中目標訓練樣本數量分別確定每個所述目標訓練樣本簇的抽樣數量;
其中,第一目標訓練樣本簇的抽取數量和第二目標訓練樣本簇的抽樣數量之間的比例與所述比例信息表征的所述第一目標訓練樣本簇對應的目標參考樣本簇中目標參考樣本數量和所述第二目標訓練樣本簇對應的目標參考樣本簇中目標參考樣本數量的比例相同。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海優揚新媒信息技術有限公司,未經上海優揚新媒信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011288666.3/1.html,轉載請聲明來源鉆瓜專利網。





