[發明專利]一種特征處理方法、裝置及存儲介質在審
| 申請號: | 201911029966.7 | 申請日: | 2019-10-28 |
| 公開(公告)號: | CN110837894A | 公開(公告)日: | 2020-02-25 |
| 發明(設計)人: | 鄭立凡;呂培立;董井然 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 郝傳鑫;賈允 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 特征 處理 方法 裝置 存儲 介質 | ||
本申請涉及一種特征處理方法、裝置及存儲介質,所述方法包括:獲取多個對象的對象信息,每個對象的對象信息包括所述對象的標簽以及所述對象與多個單特征分別對應的多項特征信息;對多個對象與同一單特征對應的多項特征信息進行分段,得到與每個單特征分別對應的候選分段集合;基于各對象的標簽,對各候選分段集合中的候選分段進行篩選,得到與各單特征分別對應的目標分段集合;對各目標分段集合中的目標分段進行組合;基于對各目標分段的組合結果,構建目標組合特征集合。本申請能夠在大數據量的情況下,自動對任意維度的用戶特征進行特征交叉組合,從而生成相應的目標組合特征集合。
技術領域
本申請涉及機器學習技術領域,尤其涉及一種特征處理方法、裝置及存儲介質。
背景技術
特征交叉(Feature Cross)是指兩個或多個特征組合所形成的合成特征,特征的組合可以提供超出這些特征單獨能夠提供的預測能力,特征交叉能夠增強模型的表達能力,提高機器學習模型的預測效果。
通過數據挖掘的方式,可從大量用戶的資料、日常行為中提煉出用戶的各種特征,如年齡層、學歷層、收入層等,從而在進行特征交叉時,需要處理的數據量是巨大的。現有的在基于大數據量的情況下進行特征交叉組合時需要進行手工處理,并且不能自定義特征交叉的方式,因此需要提出一種有效的特征處理方法來解決現有技術中在進行特征交叉時存在的技術問題。
發明內容
本申請所要解決的技術問題在于,提供一種特征處理方法、裝置及存儲介質,能夠在大數據量的情況下,自動對任意維度的用戶特征進行特征交叉組合,從而生成相應的目標組合特征集合,便于后續根據獲取的用戶特征信息直接確定相應的目標組合特征。
為了解決上述技術問題,一方面,本申請提供了一種特征處理方法,所述方法包括:
獲取多個對象的對象信息,每個對象的對象信息包括所述對象的標簽以及所述對象與多個單特征分別對應的多項特征信息;
對多個對象與同一單特征對應的多項特征信息進行分段,得到與每個單特征分別對應的候選分段集合;其中,每個候選分段集合中包括至少兩個候選分段;
基于各對象的標簽,對各候選分段集合中的候選分段進行篩選,得到與各單特征分別對應的目標分段集合;
對各目標分段集合中的目標分段進行組合;
基于對各目標分段的組合結果,構建目標組合特征集合。
另一方面,本申請提供了一種特征處理裝置,所述裝置包括:
對象信息獲取模塊,用于獲取多個對象的對象信息,每個對象的對象信息包括所述對象的標簽以及所述對象與多個單特征分別對應的多項特征信息;
候選分段集合構建模塊,用于對多個對象與同一單特征對應的多項特征信息進行分段,得到與每個單特征分別對應的候選分段集合;其中,每個候選分段集合中包括至少兩個候選分段;
目標分段集合構建模塊,用于基于各對象的標簽,對各候選分段集合中的候選分段進行篩選,得到與各單特征分別對應的目標分段集合;
目標分段組合模塊,用于對各目標分段集合中的目標分段進行組合;
目標組合特征集合構建模塊,用于基于對各目標分段的組合結果,構建目標組合特征集合。
另一方面,本申請提供了一種計算機存儲介質,所述存儲介質中存儲有至少一條指令、至少一段程序、代碼集或指令集,所述至少一條指令、至少一段程序、代碼集或指令集由處理器加載并執行如上述的特征處理方法。
另一方面,本申請提供了一種設備,所述設備包括處理器和存儲器,所述存儲器中存儲有至少一條指令、至少一段程序、代碼集或指令集,所述至少一條指令、所述至少一段程序、所述代碼集或指令集由所述處理器加載并執行以實現如上述的特征處理方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911029966.7/2.html,轉載請聲明來源鉆瓜專利網。





