[發明專利]一種基于自動特征編碼的多階特征組合方法有效
| 申請號: | 202010312421.3 | 申請日: | 2020-04-20 |
| 公開(公告)號: | CN111582325B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 董守斌;鐘振遠;胡金龍 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06F18/25 | 分類號: | G06F18/25;G06F18/214;G06F16/18;G06F16/2458 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 馮炳輝 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 自動 特征 編碼 組合 方法 | ||
1.一種基于自動特征編碼的多階特征組合方法,其特征在于,主要對日志型數據的訓練集和測試集進行多階特征組合,包括以下步驟:
1)對包含連續型特征和類別型特征的日志型數據的訓練集進行預處理,再對預處理后的日志型數據的訓練集進行數據采樣,得到采樣數據集;其中,所述預處理包括將連續型特征離散化和類別型特征降維;所述日志型數據為廣告點擊日志、推薦系統日志或商品交易日志;
2)構建代理搜索模型,對采樣數據集中的所有特征組進行搜索,選擇評價指標最高的特征組,包括以下步驟:
2.1)采樣數據集的類別型特征構成集合為定義C={F1,F2,...,Fd}為一個特征組,它是一個類別型特征組成的集合,Fi表示一個類別型特征,i=1,2,...,d,d為該集合的元素數量,對的所有非空子集對應的特征組構造交叉特征,特征組C的交叉特征定義為:
式中,表示克羅內克積,T(C)是一個取值范圍為{1,2,...,v}的標量,該取值范圍的每一個數值表示該交叉特征所對應類別,|Fi|表示類別型特征Fi的取值個數;
2.2)對每個特征組對應的交叉特征分別構造線性模型
式中,xT(C)表示樣本x的交叉特征T(C)的取值,Ri表示{1,2,...,v}中的任意一個值,I(xT(C)=Ri)是一個指示函數,當等式xT(C)=Ri成立時等于1,否則等于0,γi表示模型特征權重;
2.3)對每一個構建的線性模型進行求解,使用基于統計的方法,得到權重γi的解析解如下:
γi=average(yj|I(xT(C)=Ri))
式中,average是均值函數,yj是第j個樣本的標簽值,average(yj|I(xT(C)=Ri))表示數據集中所有滿足xT(C)=Ri的樣本的標簽均值,得到訓練好的模型后,輸出模型的評價指標值,評價指標值越大說明模型對應特征組效果越好;
2.4)將所有的特征組對應模型的評價指標值進行降序排序,選取最優的特征組;
3)構建復合目標編碼器,對步驟2)中選中的特征組進行編碼,得到一系列的多階組合特征;
所述復合目標編碼器由目標編碼層和復合層組成,它們的定義如下:
所述目標編碼層是一種有監督編碼運算,它的功能是對輸入的一個特征組的所有非空子集對應的交叉特征進行運算,并輸出目標編碼,所述目標編碼層作用于一個交叉特征的表達式為:
式中,T(C)是交叉特征,定義為:
式中,表示克羅內克積,T(C)是一個取值范圍為{1,2,...,v}的標量,該取值范圍的每一個數值表示該交叉特征所對應類別,C={F1,F2,...,Fd}為一個特征組,它是一個類別型特征組成的集合,Fi表示一個類別型特征,i=1,2,...,d,d為該集合的元素數量,表示樣本x的交叉特征xT(C)=Ri時的編碼值,Ri表示{1,2,...,v}中的任意一個值;λ是權重系數,用于調節和的比例,是目標編碼先驗概率,表示訓練集樣本中標簽為l的概率,是目標編碼后驗概率,其計算方法如下:
式中,I是指示函數,當條件為真時等于1,否則等于0,n是訓練集樣本數,和yj分別表示第j個樣本的交叉特征T(C)的取值和標簽的取值,表示訓練集中標簽為l的樣本數,表示訓練集中的樣本數,表示訓練集中且yi=l的樣本數;
所述復合層的功能是接收目標編碼層輸出的目標編碼作為輸入,使用復合轉化運算將它們兩兩結合,得到特征組的多階組合特征并輸出,這是一種具有可解釋性的構造特征,每一個多階組合特征對應一個構造范式,即其目標編碼對應的特征組和所使用的復合轉化運算;其中,所述復合轉化運算包括加法、減法、乘法和除法這些二目運算ψ(·,·),兩個目標編碼φ(Ci1)和φ(Ci2)的運算就是ψ(φ(Ci1),φ(Ci2));
將步驟2)中選中的特征組輸入復合目標編碼器,首先,通過復合目標編碼器的目標編碼層將選中特征組的所有非空子集對應的交叉特征轉化為目標編碼,然后再通過復合目標編碼器的復合層將這些目標編碼轉換為一系列多階組合特征;
4)對得到的一系列多階組合特征進行內嵌式特征選擇,得到一組有效組合特征,將該組有效組合特征的構造范式加入有效組合特征編碼表,其中,所述有效組合特征編碼表是一個包含構造范式的集合,初始為空集,用于指導復合目標編碼器對日志型數據的訓練集和測試集的類別型特征進行編碼轉化;
所述內嵌式特征選擇包括以下步驟:
4.1)將多階組合特征輸入GBDT模型進行訓練;
4.2)以信息增益為準則,從訓練好的模型計算每個多階組合特征的特征重要性權重,按重要性降序排序;
4.3)用特征重要性權重閾值不低于α和保留特征數不多于β兩個控制條件進行特征選擇,經過特征選擇的多階組合特征為有效組合特征,將有效組合特征所對應的構造范式加入有效組合特征編碼表;
5)要繼續搜索采樣數據集中余下的特征組,即沒有被選中的特征組,重復步驟2)至步驟4),直至已遍歷完采樣數據集的所有特征組或有效組合特征編碼表中的構造范式數量達到指定閾值,則終止循環,獲得完整的有效組合特征編碼表并進行步驟6);
6)參照步驟5)得到的完整的有效組合特征編碼表中已有的構造范式,使用復合目標編碼器對預處理后的日志型數據的訓練集的所有類別型特征進行編碼轉換,獲得多階特征組合的訓練集;同樣,對日志型數據的測試集進行同訓練集一樣的預處理,包括連續特征離散化和類別型特征的降維,然后再參照完整的有效組合特征編碼表使用復合目標編碼器轉化,獲得多階特征組合的測試集。
2.根據權利要求1所述的一種基于自動特征編碼的多階特征組合方法,其特征在于:在步驟1)中,對包含連續型特征和類別型特征的日志型數據的訓練集進行預處理,再對預處理后的日志型數據的訓練集進行數據采樣,包括以下步驟:
1.1)對日志型數據的訓練集中的連續型特征進行等頻分桶離散化操作,即以令樣本數量在各個區間分布均勻為準則,對連續型特征進行離散化,由此能夠將連續型特征變為類別型特征;
1.2)對日志型數據的訓練集中原有的和從連續型特征變化而來的類別型特征進行低頻處理,將出現頻率低于規定閾值的特征值設為同一值,以降低類別型特征的維度;
1.3)對經過預處理的日志型數據的訓練集進行按特定比例隨機采樣操作,得到采樣數據集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010312421.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:檢測實時全額結算系統中死鎖的方法、設備、裝置和介質
- 下一篇:一種液壓支架





