[發明專利]特征構建方法、裝置、計算機設備及存儲介質有效
| 申請號: | 202010621785.X | 申請日: | 2020-06-30 |
| 公開(公告)號: | CN111753920B | 公開(公告)日: | 2022-06-21 |
| 發明(設計)人: | 不公告發明人 | 申請(專利權)人: | 重慶紫光華山智安科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 張欣欣 |
| 地址: | 400700 重慶市*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 特征 構建 方法 裝置 計算機 設備 存儲 介質 | ||
本申請涉及機器學習技術領域,提供一種特征構建方法、裝置、計算機設備及存儲介質,首先,通過第一特征構建單元和第二特征構建單元,構建出特征構建集的多個第一集合和每個所述第一集合的特征值,并記錄特征構建過程中的特征構建信息;其次,通過第一特征構建單元和特征構建信息,分別構建出訓練集的多個第二集合和測試集的多個第三集合;再通過多個第二集合的特征值和多個第三集合的特征值對二分類模型進行訓練和測試,以迭代修改第一特征構建單元和第二特征構建單元的超參數;從而針對不同應用場景調整特征的表現能力,實現有監督的高效的特征構建。
技術領域
本申請涉及機器學習技術領域,具體而言,涉及一種特征構建方法、裝置、計算機設備及存儲介質。
背景技術
特征構建是結構化數據建模流程中重要的組成部分,也是決定數據挖掘或機器學習項目成功與否重要的因素。
通常,二分類模型的特征構建過程是從業務經驗開始的,即,首先根據業務專家的業務經驗,選擇業務中產生的對算法所學習模式有重要作用的數據項;再通過各種手段對特征進行單變量或多變量操作構建新的特征,如采用特征聚合、映射、抽取、分箱、計算等單變量操作,或者特征交叉(組合)、多項式計算、分組聚合等多變量操作實現特征構建。
但是,上述的特征構建方法都是無監督的方式,特征對算法所學模式的表達能力在模型構建之前是未知的,且從大量建模經驗來看,這種無監督方式構建的特征絕大多數是無效或重復的,即特征信息濃度低。同時,上述特征構建過程無法做到有效調整。
發明內容
本申請的目的在于提供一種特征構建方法、裝置、計算機設備及存儲介質,用以解決現有的特征構建方式構建的特征信息濃度低且無法有效調整特征構建過程的問題。
為了實現上述目的,本申請實施例采用的技術方案如下:
第一方面,本申請提供了一種特征構建方法,所述方法包括:
獲取多個樣本,并將所述多個樣本劃分為特征構建集、訓練集及測試集;
利用第一特征構建單元,對所述特征構建集中的所述樣本進行特征構建并記錄特征構建信息,得到多個第一集合;
利用第二特征構建單元計算每個所述第一集合的特征值;
生成特征映射表,其中,所述特征映射表包括多個預設類別、所述多個第一集合和每個所述第一集合的特征值,一個所述預設類別和一個所述第一集合確定一個所述特征值;
利用所述第一特征構建單元和所述特征構建信息,分別對所述訓練集和所述測試集中的所述樣本進行特征構建,得到多個第二集合和多個第三集合,所述多個第二集合和所述多個第一集合一一對應,所述多個第三集合和所述多個第一集合一一對應;
依據所述多個預設類別查找所述特征映射表,獲得每個所述第二集合的特征值和每個所述第三集合的特征值;
利用每個所述第二集合的特征值和每個所述第三集合的特征值,對預先選定的二分類模型進行訓練和測試,以迭代修改所述第一特征構建單元和所述第二特征構建單元的超參數,直至所述第一特征構建單元和所述第二特征構建單元達到最優。
第二方面,本申請還提供了一種特征構建裝置,所述裝置包括:
樣本獲取模塊,用于獲取多個樣本,并將所述多個樣本劃分為特征構建集、訓練集及測試集;
第一執行模塊,用于利用第一特征構建單元,對所述特征構建集中的所述樣本進行特征構建并記錄特征構建信息,得到多個第一集合;
第二執行模塊,用于利用第二特征構建單元計算每個所述第一集合的特征值;
生成模塊,用于生成特征映射表,其中,所述特征映射表包括多個預設類別、所述多個第一集合和每個所述第一集合的特征值,一個所述預設類別和一個所述第一集合確定一個所述特征值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶紫光華山智安科技有限公司,未經重慶紫光華山智安科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010621785.X/2.html,轉載請聲明來源鉆瓜專利網。





