[發明專利]自動化機器學習、訓練方法、裝置及存儲介質在審
| 申請號: | 202011303421.3 | 申請日: | 2020-11-19 |
| 公開(公告)號: | CN112396188A | 公開(公告)日: | 2021-02-23 |
| 發明(設計)人: | 陳海波;其他發明人請求不公開姓名 | 申請(專利權)人: | 深延科技(北京)有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 常州佰業騰飛專利代理事務所(普通合伙) 32231 | 代理人: | 滕詣迪 |
| 地址: | 100081 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 自動化 機器 學習 訓練 方法 裝置 存儲 介質 | ||
1.一種自動化機器學習方法,其特征在于,包括:
自動數據清洗步驟,清洗原始特征中專利信息不規范字段及噪聲;
自動特征工程步驟,包括AutoML自動特征工程步驟和特征強化步驟;所述AutoML自動特征工程步驟,將所述原始特征清洗為AutoML系統處理格式,進行自動特征生成及場景類型特征選擇迭代;所述的特征選擇迭代采用lightGBM單模型;所述的特征強化步驟,獲取預設業務邏輯信息,構造反應業務信息的特征;
自動特征選擇步驟,對專利的特征進行選擇評分;
自動模型融合步驟,采用Stacking學習使用底層學習器的預測結果,在Bagging中使用不同seed生成模型,最后將Stacking的結果與Bagging結果進行簡單線性加權融合作為最終預測結果。
2.根據權利要求1所述的自動化機器學習方法,其特征在于,所述的AutoML自動特征工程步驟;將所述原始特征清洗成AutoML系統處理格式,進行自動特征生成及場景類型特征選擇迭代,所述原始特征包括數值類型,分類類型,時間類型以及文本類型;所述的特征選擇迭代采用lightGBM單模型,選擇和本次任務契合的場景類型進行自動特征工程,在每一輪場景類型特征迭代過程中根據上一輪特征的重要性分配權重進行迭代更新。
3.根據權利要求2所述的自動化機器學習方法,其特征在于,所述的特征強化步驟:
對所述的數值類型和類目特征生成統計特征,以及數值和分類的聚合特征;
對所述的時間類型,提取周期性特征;
對所述的文本特征,采用TF-IDF、LDA方法提取特征;所述的TF-IDF評估字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度;字詞的重要性隨著所述字詞在文件中出現的次數成正比增加,同時會隨著所述字詞在語料庫中出現的頻率成反比下降;具體為:
其中,TFw表示詞條(關鍵字)在文本中出現的頻率。
4.根據權利要求1所述的自動化機器學習方法,其特征在于,所述的自動特征選擇步驟:
挖掘公司的專利在時間線上的活躍度,根據專利期限以及上升趨勢,劃分評分等級;
根據專利的申請審核流程,提交申請到審核結果的時間長度,提取企業在最近月份的專利數量以及所述專利大于預設閾值的種類,劃分評分等級;
根據城市中各個行業的公司數量以及公司之間的相對密集度特征,劃分企業競爭評分等級;
按照投資價值劃分評分等級;
挖掘公司認證資格競爭力信息,通過構造公司資歷完善度特征來劃分公司實力評分等級。
5.根據權利要求1所述的自動化機器學習方法,其特征在于,所述的自動模型融合步驟;融合方法為Stacking,還包括第一層采用過的模型有LightGBM、XGBoost、RandomForest、Support Vector Regressor、ExtraTreesRegressor。
6.一種根據權利要求5所述的自動化機器學習訓練方法,其特征在于,所述的Stacking方式融合,上層進行k折交叉驗證。
7.根據權利要求6所述的自動化機器學習訓練方法,其特征在于:采用LightGBM、XGBoost、Random Forest、Support Vector Regressor、ExtraTreesRegressor模型,將驗證集矩陣并列在一起、測試集矩陣合并在一起。
8.根據權利要求7所述的自動化機器學習訓練方法,其特征在于:在Bagging中使用不同seed以及隨機調整參數分別生成多個LightGBM和多個XGBoost模型;最后將Stacking的結果與Bagging結果進行簡單線性加權融合作為最終預測結果。
9.一種基于自動化機器學習裝置,包括存儲器和處理器,存儲器存儲有計算機程序,其特征在于;所述處理器執行所述計算機程序時實現如權利要求1-8任一所述的方法步驟。
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于:所述的計算機程序被處理器執行時實現如權利要求1-8任一所述的方法步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深延科技(北京)有限公司,未經深延科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011303421.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電池模組
- 下一篇:一種鋁合金電纜生產用檢測裝置





