[發明專利]自動化機器學習、訓練方法、裝置及存儲介質在審
| 申請號: | 202011303421.3 | 申請日: | 2020-11-19 |
| 公開(公告)號: | CN112396188A | 公開(公告)日: | 2021-02-23 |
| 發明(設計)人: | 陳海波;其他發明人請求不公開姓名 | 申請(專利權)人: | 深延科技(北京)有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 常州佰業騰飛專利代理事務所(普通合伙) 32231 | 代理人: | 滕詣迪 |
| 地址: | 100081 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 自動化 機器 學習 訓練 方法 裝置 存儲 介質 | ||
本發明公開了一種自動化機器學習、訓練方法、裝置及存儲介質,包括:自動數據清洗步驟,清洗原始專利信息不規范字段及噪聲;自動特征工程步驟;AutoML自動特征工程步驟,將原始特征清洗成AutoML系統處理格式,進行自動特征生成及場景類型特征選擇迭代;所述的特征選擇迭代采用lightGBM單模型;所述的特征強化步驟,通過業務邏輯,結合已有特征的重要性,挖掘業務信息,構造反應業務信息的特征;自動特征選擇步驟,對專利的特征進行選擇評分;自動模型融合步驟;采用Stacking+Bagging的方式進行模型融合增強結果穩定性。本發明構建了多種不同類型模型的集成,使得集成之后的模型效果有所提升。
技術領域
本申請涉及機器學習領域,具體而言,涉及一種自動化機器學習、訓練方法、裝置及存儲介質。
背景技術
IEEE ISI是安全信息學領域的旗艦會議,于2003年首次在美國亞利桑那州圖森市召開。在過去的16年中,IEEE ISI會議已經從傳統的智能和安全領域發展到多領域聯合研究與創新。為促進人工智能賦能的解析學技術(AI-Enabled Analytics)的產業落地,并為全球學術界和產業界同行提供一個學術交流與技術探討的平臺,IEEE ISI會議特發起本屆國際大數據分析競賽(IEEE ISI World Cup 2019,IWC 2019)本次比賽從2019年2月1日開始報名,期間2019年5月1日發布比賽結果,到7月1日舉辦Workshop,歷時5個月,為研究人員和行業從業者提供了一個國際論壇,供大家分享在ISI領域的創新想法,原創成果和實踐經驗。
主辦方為本次比賽提供了基于3500家上市公司全量信息,描述公司在財務、法務、股權、經營狀況、輿論等方面的屬性特征。共設計兩個賽題:企業投資價值評估和法律訴訟類型預測。
本發明可通過企業的年報、財務信息、經營信息、資產信息、稅務信息、知識產權等企業綜合信息對企業投資情況進行打分,為投資者提供投資依據。
發明內容
1、本發明的目的
本發明為了解決能夠自動對企業的投資情況進行打分,而提出了一種自動化機器學習方法。
2、本發明所采用的技術方案
本發明公開了一種自動化機器學習方法,包括:
自動數據清洗步驟,清洗原始特征中專利信息不規范字段及噪聲;
自動特征工程步驟,包括AutoML自動特征工程步驟和特征強化步驟;所述AutoML自動特征工程步驟,將所述原始特征清洗為AutoML系統處理格式,進行自動特征生成及場景類型特征選擇迭代;所述的特征選擇迭代采用lightGBM單模型;所述的特征強化步驟,獲取預設業務邏輯信息,構造反應業務信息的特征;
自動特征選擇步驟,對專利的特征進行選擇評分;
自動模型融合步驟,采用Stacking學習使用底層學習器的預測結果,在Bagging中使用不同seed生成模型,最后將Stacking的結果與Bagging結果進行簡單線性加權融合作為最終預測結果。
優選的,所述的AutoML自動特征工程步驟;將所述原始特征清洗成AutoML系統處理格式,進行自動特征生成及場景類型特征選擇迭代,所述的原始特征包括數值類型,分類類型,時間類型以及文本類型;所述的特征選擇迭代采用lightGBM單模型,選擇和本次任務契合的場景類型進行自動特征工程,在每一輪場景類型特征迭代過程中根據上一輪場景類型特征的重要性分配權重進行迭代更新。
優選的,所述的特征強化步驟:
對所述的數值類型和類目特征生成統計特征,以及數值和分類的聚合特征;
對所述的時間類型,提取周期性特征;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深延科技(北京)有限公司,未經深延科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011303421.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電池模組
- 下一篇:一種鋁合金電纜生產用檢測裝置





