[發明專利]用于使用深度強化學習進行預測建模的自動特征工程在審
| 申請號: | 202210982159.2 | 申請日: | 2022-08-16 |
| 公開(公告)號: | CN116304607A | 公開(公告)日: | 2023-06-23 |
| 發明(設計)人: | M.布亞迪;A.阿拉維 | 申請(專利權)人: | SAP歐洲公司 |
| 主分類號: | G06F18/211 | 分類號: | G06F18/211;G06N3/092;G06N3/084;G06N3/047;G06N5/04 |
| 代理公司: | 北京市柳沈律師事務所 11105 | 代理人: | 邵亞麗 |
| 地址: | 德國瓦*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 使用 深度 強化 學習 進行 預測 建模 自動 特征 工程 | ||
公開了用于為預測建模在數據集上執行特征工程的系統、方法和計算機可讀介質。數據集可以包括用于預測模型的多個特征。可以將數據集提供給神經網絡,以確定對預測模型影響最大的特征和對預測模型沒有正面影響的特征。深度強化學習代理可以選擇在數據集上執行的動作。可以將動作應用于數據集,以生成新的特征并獲得經變換的數據集。可以從數據集中移除對預測模型沒有正面影響的特征。可以為經變換的數據集計算獎勵。可以將經變換的數據集和獎勵傳遞到神經網絡,以進行進一步迭代和對預測模型的特征的優化。
相關申請的交叉引用
本專利申請要求獲得于2021年12月20日提交的、題為“用于使用深度強化學習進行預測建模的自動特征工程”的在先提交的第63/291,789美國臨時專利申請(‘789專利)的所有共同主題方面的權益。在本文中,所標識的‘789臨時專利申請通過引用整體并入本申請。
技術領域
本教導的實施例涉及用于預測建模的特征工程。具體地,本教導的實施例涉及利用深度強化學習以改進預測模型的自動特征工程。
背景技術
在預測建模中,將變量輸入到經學習的預測模型中,以預測與輸入變量關聯的系統的結果。通常,將所有的變量輸入到預測模型中,即使不是所有的變量影響預測模型的結果。在一些情況下,可能將多余并對模型的結果有負面影響的變量輸入到模型中。特征工程可以用于將輸入變量的范圍縮小到對預測模型的結果影響最大的縮減的特征集合。
在典型的特征工程系統中,利用各種方法來生成實現對預測模型結果影響較高的縮減的輸入變量集合。例如,可以使用擴展還原法(expansion-reduction?method)和演進中心法(evolution-centric?method)。這些方法有幾個缺點。一些模型基于具有特征節點和數據集節點的異構變換圖。隨著在分層結構的圖中,特征的數量呈指數級增長,同時計算成本也會增長,這些算法遇到爆炸問題。此外,動作空間局限于算術函數,算術函數是原始函數,并且不被考慮為分類特征。此外,一些模型在Q學習(Q-learning)上利用線性近似,這會限制自動特征工程的能力。此外,通常會忽略特征之間的差,從而將變換運算符應用于所有特征。一般來說,目前的算法不支持組合空間,效率不高,并且不支持變換。這導致非常昂貴的計算,特別是對于大數據集。
所需要的是用于特征工程的系統、程序和方法,其通過優化選擇對預測模型結果影響最大的特征,并減少輸入維度以減少預測模型的處理來改進預測建模。
發明內容
本公開的實施例通過提供用于自動執行特征工程以生成包括對預測模型的結果影響最大的特征的縮減的特征集的程序、系統和方法來解決上述問題。可以將深度強化學習應用于選擇基于獎勵函數來使累積獎勵最大化的動作。
實施例涉及一種為預測建模在數據集上執行特征工程的方法。該方法包括:接收數據集,該數據集包括多個特征;響應于接收數據集,將數據集輸入到神經網絡中;從神經網絡接收對多個特征中的至少一個特征執行的動作的選擇;響應于接收動作的選擇,通過將動作應用于至少一個特征來變換數據集以獲得經變換的數據集;基于動作來計算神經網絡的獎勵;確定是否達到神經網絡的預算(budget);響應于確定達到預算,將多個特征存儲在最終模型中;以及,響應于確定未達到預算,將經變換的數據集和獎勵輸入到神經網絡中,以進行進一步迭代。
在一些方面上,本文描述的技術涉及存儲計算機可執行指令的一個或多個非暫時性計算機可讀介質,計算機可執行指令在由處理器執行時,執行一種為預測建模在數據集上執行特征工程的方法,該方法包括:接收數據集,該數據集包括多個特征;響應于接收數據集,將數據集輸入到神經網絡中;從神經網絡接收對多個特征中的至少一個特征執行的動作的選擇;響應于接收動作的選擇,通過將動作應用于至少一個特征來變換數據集以獲得經變換的數據集;基于動作來計算神經網絡的獎勵;確定是否達到神經網絡的預算;響應于確定達到預算,將多個特征存儲在最終模型中;以及,響應于確定未達到預算,將經變換的數據集和獎勵輸入到神經網絡中,以進行進一步迭代。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于SAP歐洲公司,未經SAP歐洲公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210982159.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一株豆腐酸漿來源的植物乳桿菌及其應用
- 下一篇:指紋識別的方法和裝置





