[發明專利]一種基于名義屬性的連續型特征構造方法在審
| 申請號: | 201710034428.1 | 申請日: | 2017-01-17 |
| 公開(公告)號: | CN106897776A | 公開(公告)日: | 2017-06-27 |
| 發明(設計)人: | 董守斌;馬雅從;張晶;胡金龍 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06N99/00 | 分類號: | G06N99/00 |
| 代理公司: | 廣州市華學知識產權代理有限公司44245 | 代理人: | 羅觀祥 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 名義 屬性 連續 特征 構造 方法 | ||
技術領域
本發明涉及機器學習中的特征工程領域,尤其是指一種基于名義屬性的連續型特征構造方法。
背景技術
隨著大數據時代的到來以及互聯網的興起,各種機器學習算法被用于挖掘數據中所蘊含的具有商業價值的信息,而特征工程則是機器學習系統中的一個關鍵步驟,決定著系統的精度的上限,特征構造則是特征工程中的一個重要組成部分。目前關于特征構造大多是基于規則的人工提取,很大程度上依賴于工程師對于業務背景的理解,難以在較短時間內一次性提取出較為全面的特征,尤其是針對名義屬性特征或分類變量特征如“黃、紅、藍”一類的顏色特征,往往將名義屬性轉換為彼此之間距離為相同長度的稀疏向量,采用One-Hot編碼或Dummy編碼的方式對特征進行構造。這種編碼方式雖然每個維度代表著某種名義屬性或分類變量是否出現,具有一定的物理意義,但是對于不同的樣本,這種特征表示形式默認彼此之間的距離為相同的定值,這一點可能與現實情況相悖,并且當名義屬性取值過多的時候,這種編碼方式會導致特征維度過大的問題。
本發明提供一種基于名義屬性的連續型特征構造方法,這種方法可以實現半自動特征構造,與當前較為常用的名義屬性One-Hot編碼相比能使產生的樣本之間的差異性更加明顯,并且具有較強的可擴展性,可以使用并行計算技術進行加速,讓機器學習算法工程師可以專注于特征名義屬性的組合而不需要過多地考慮具體的構造過程,該方法構造的特征往往為線性特征,具有明顯的物理意義,可解釋性較強,通過特定的特征選擇過程以及簡單的線性預測模型就可以達到較好的預測效果,尤其適合于工業應用上的機器學習系統的構建。
發明內容
本發明的目的在于克服現有技術的缺點與不足,提供一種基于名義屬性的連續型特征構造方法,這種方法分為離線訓練和線上預測兩個部分,不僅可以應用于具有“用戶-物品”對的場景,同時也適用于更為一般的帶有名義屬性或分類變量特征的分類和回歸預測問題,與傳統的One-Hot和Dummy編碼相比,本發明的構造方法所產生的特征使得樣本之間差異更加明顯,產生的特征具有較強的可解釋性,并且能夠在一定程度上緩解因為特征高維稀疏而導致的過擬合等問題。
為實現上述目的,本發明所提供的技術方案為:一種基于名義屬性的連續型特征構造方法,包括以下步驟:
1)數據預處理,包括數據表整合、數據表示形式、缺失值處理;
2)根據業務背景知識設置特征構造框架;
3)產生具體的特征構造路徑;
4)根據特征構造路徑構造相應的特征并產生訓練集;
5)對訓練集進行特征選擇并構建預測模型;
6)將相關的數據集以及預測模型保存并結束離線訓練過程;
7)將需要進行線上預測的樣本數據進行預處理以及特征提取;
8)利用離線訓練得到的預測模型對樣本進行預測。
在步驟1)中,所述數據表整合指的是將現有的數據表進行整合,將數據集中的所有字段置于同一張表中。所述數據表示形式指的是在必要的情況下將當前的名義屬性字段轉換為新的名義屬性字段,具體的表示方法根據不同的應用場合以及不同的預測需求決定。所述缺失值處理包括缺失字段剔除和缺失值填充兩種情況,對于其中數據缺失較為嚴重的字段進行剔除,對于缺失情況不嚴重的字段,若其為名義屬性字段,則將缺失部分的用一個新的屬性值填充,或者采用KNN算法對其進行填充,若其為連續型字段,則采用均值填充或其他填充方法。
在步驟2)中,結合業務背景知識確定當前預測或分類問題的特征構造框架,包括以下步驟:
2.1)確定特征構造框架的主干以及主干上的所有主節點。對于“用戶-物品”這種應用場景,主干分為“用戶-物品-指標-計算方式”、“用戶-用戶指標-計算方式”、“物品-物品指標-計算方式”三種,主節點指的是主干上的節點,包括“用戶”、“物品”、“指標”、“計算方式”、“物品指標”、“用戶指標”六種;對于一般的帶有名義屬性或分類變量的應用場景,主干則僅有“窗口-指標-計算方式”一種,相應的主節點僅有“窗口”、“指標”和“計算方式”三種。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710034428.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于貝葉斯集成學習的軟測量建模方法
- 下一篇:設備隱患的處理方法和裝置





