[發明專利]利用嵌套機器學習模型來執行預測的方法及系統在審
| 申請號: | 202110772622.6 | 申請日: | 2017-05-05 |
| 公開(公告)號: | CN113610240A | 公開(公告)日: | 2021-11-05 |
| 發明(設計)人: | 陳雨強;戴文淵;楊強;郭夏瑋;涂威威 | 申請(專利權)人: | 第四范式(北京)技術有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 北京銘碩知識產權代理有限公司 11286 | 代理人: | 王艷茹;蘇銀虹 |
| 地址: | 100085 北京市海淀區清*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 利用 嵌套 機器 學習 模型 執行 預測 方法 系統 | ||
提供了一種利用嵌套機器學習模型來執行預測的方法及系統,其中,所述嵌套機器學習模型包括根據上下層嵌套框架訓練出的上層模型和下層模型,所述方法包括:(A)獲取預測數據記錄;(B)基于預測數據記錄的屬性信息來生成與預測數據記錄對應的預測樣本的多個特征子集;(C)將預測樣本的多個特征子集分別提供給嵌套機器學習模型所包括的上層模型和下層模型,以得到嵌套機器學習模型針對預測樣本的預測結果。根據所述系統和方法,能夠有效地融合多種類型的子模型來協同工作,充分發揮各個子模型的優勢以取得較好的綜合機器學習效果。
本申請是申請日為2017年5月5日、申請號為201710311867.2、題為“利用嵌套機器學習模型來執行預測的方法及系統”的專利申請的分案申請。
技術領域
本發明的示例性實施例總體說來涉及人工智能領域,更具體地說,涉及一種利用嵌套機器學習模型來執行預測的方法及系統以及一種訓練嵌套機器學習模型的方法及系統。
背景技術
隨著海量數據的出現,人工智能技術得到了迅速發展,而為了從海量數據中挖掘出價值,需要基于數據記錄來產生適用于機器學習的訓練和/或預測樣本,以有助于訓練出機器學習模型和/或利用訓練好的機器學習模型來執行預估。
這里,每條數據記錄可被看做關于一個事件或對象的描述,對應于一個示例或樣例。在數據記錄中,包括反映事件或對象在某方面的表現或性質的各個事項,這些事項可稱為“屬性”。通過對數據記錄的屬性信息進行諸如特征工程等處理,可產生包括各種特征的機器學習樣本。
在實際的機器學習應用中,數據記錄的屬性信息在形式或含義等方面各有特點,相應地,所產生的特征也在形式或含義等方面存在各種差異,這使得單個機器學習樣本中往往存在不同情況的特征。
然而,由于應用機器學習技術的場景必然會面臨計算資源有限、樣本數據不足、特征處理脫離應用場景等客觀問題,所以現實中難以找到一種機器學習模型,使其能夠在各種特征上均具有適當的表現。例如,在現有技術中,存在利用線性模型和神經網絡模型來融合訓練廣度和訓練深度的方案(請參見Google的論文“WideDeep Learning forRecommender Systems”),但是上述方案存在訓練復雜、計算復雜度高、參數調節困難等缺陷,在工業界的應用受到很大限制。
發明內容
本發明的示例性實施例旨在克服單一機器學習模型無法較好地適用于所有類型特征的缺陷。
根據本發明的示例性實施例,提供一種利用嵌套機器學習模型來執行預測的方法,其中,所述嵌套機器學習模型包括根據上下層嵌套框架訓練出的上層模型和下層模型,所述方法包括:(A)獲取預測數據記錄;(B)基于預測數據記錄的屬性信息來生成與預測數據記錄對應的預測樣本的多個特征子集;(C)將預測樣本的多個特征子集分別提供給嵌套機器學習模型所包括的上層模型和下層模型,以得到嵌套機器學習模型針對預測樣本的預測結果。
可選地,在所述方法中,所述上層模型包括一個決策樹子模型,并且,所述下層模型包括多個線性子模型,其中,每個線性子模型對應于所述決策樹子模型的一個葉子節點。
可選地,在所述方法中,在步驟(B)中,基于預測數據記錄的屬性信息來生成預測樣本的特征,并根據特征的取值連續性和/或取值空間規模來生成預測樣本的上層特征子集和預測樣本的下層特征子集。
可選地,在所述方法中,上層特征子集涵蓋取值為連續值的全部特征,并且,下層特征子集涵蓋取值為非連續值的全部特征;或者,上層特征子集涵蓋取值為連續值的全部特征連同至少一部分取值為非連續值的特征,并且,下層特征子集涵蓋其余取值為非連續值的特征。
可選地,在所述方法中,在步驟(B)中,基于預測數據記錄的屬性信息來生成預測樣本的特征,并根據特征的缺失性來生成預測樣本的上層特征子集和預測樣本的下層特征子集,其中,特征的缺失性指示該特征是否基于預測數據記錄相對于訓練數據記錄的缺失屬性信息而生成。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于第四范式(北京)技術有限公司,未經第四范式(北京)技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110772622.6/2.html,轉載請聲明來源鉆瓜專利網。





