[發(fā)明專利]利用復合機器學習模型來執(zhí)行預測的方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202110773264.0 | 申請日: | 2017-05-05 |
| 公開(公告)號: | CN113570064A | 公開(公告)日: | 2021-10-29 |
| 發(fā)明(設計)人: | 楊強;戴文淵;陳雨強;郭夏瑋;涂威威 | 申請(專利權(quán))人: | 第四范式(北京)技術有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06N5/02;G06Q10/04 |
| 代理公司: | 北京銘碩知識產(chǎn)權(quán)代理有限公司 11286 | 代理人: | 王艷茹;蘇銀虹 |
| 地址: | 100085 北京市海淀區(qū)清*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 利用 復合 機器 學習 模型 執(zhí)行 預測 方法 系統(tǒng) | ||
提供了一種利用復合機器學習模型來執(zhí)行預測的方法及系統(tǒng),其中,所述復合機器學習模型包括至少兩種類型的子模型,所述方法包括:(A)獲取預測數(shù)據(jù)記錄;(B)基于預測數(shù)據(jù)記錄的屬性信息來生成與預測數(shù)據(jù)記錄對應的預測樣本的多個特征子集;(C)將預測樣本的多個特征子集分別提供給復合機器學習模型所包括的子模型,以得到復合機器學習模型針對預測樣本的預測結(jié)果,其中,在所述復合機器學習模型中,所述子模型根據(jù)梯度提升框架訓練而成。通過這種方式,能夠有效地融合多種類型的子模型來協(xié)同工作,充分發(fā)揮各個子模型的優(yōu)勢以取得較好的綜合機器學習效果。
本申請是申請日為2017年05月05日、申請?zhí)枮?01710311433.2、題為“利用復合機器學習模型來執(zhí)行預測的方法及系統(tǒng)”的專利申請的分案申請。
技術領域
本發(fā)明的示例性實施例總體說來涉及人工智能領域,更具體地說,涉及一種利用復合機器學習模型來執(zhí)行預測的方法及系統(tǒng)以及一種訓練復合機器學習模型的方法及系統(tǒng)。
背景技術
隨著海量數(shù)據(jù)的出現(xiàn),人工智能技術得到了迅速發(fā)展,而為了從海量數(shù)據(jù)中挖掘出價值,需要基于數(shù)據(jù)記錄來產(chǎn)生適用于機器學習的訓練和/或預測樣本,以有助于訓練出機器學習模型和/或利用訓練好的機器學習模型來執(zhí)行預估。
這里,每條數(shù)據(jù)記錄可被看做關于一個事件或?qū)ο蟮拿枋?,對應于一個示例或樣例。在數(shù)據(jù)記錄中,包括反映事件或?qū)ο笤谀撤矫娴谋憩F(xiàn)或性質(zhì)的各個事項,這些事項可稱為“屬性”。通過對數(shù)據(jù)記錄的屬性信息進行諸如特征工程等處理,可產(chǎn)生包括各種特征的機器學習樣本。
在實際的機器學習應用中,數(shù)據(jù)記錄的屬性信息在形式或含義等方面各有特點,相應地,所產(chǎn)生的特征也在形式或含義等方面存在各種差異,這使得單個機器學習樣本中往往存在不同情況的特征。
然而,由于應用機器學習技術的場景必然會面臨計算資源有限、樣本數(shù)據(jù)不足、特征處理脫離應用場景等客觀問題,所以現(xiàn)實中難以找到一種機器學習模型,使其能夠在各種特征上均具有適當?shù)谋憩F(xiàn)。例如,在現(xiàn)有技術中,存在利用線性模型和神經(jīng)網(wǎng)絡模型來融合訓練廣度和訓練深度的方案(請參見Google的論文“WideDeep Learning forRecommender Systems”),但是上述方案存在訓練復雜、計算復雜度高、參數(shù)調(diào)節(jié)困難等缺陷,在工業(yè)中的應用受到很大限制。
發(fā)明內(nèi)容
本發(fā)明的示例性實施例旨在克服單一機器學習模型無法較好地適用于不同情況下的特征的缺陷。
根據(jù)本發(fā)明的示例性實施例,提供一種利用復合機器學習模型來執(zhí)行預測的方法,其中,所述復合機器學習模型包括至少兩種類型的子模型,所述方法包括:(A)獲取預測數(shù)據(jù)記錄;(B)基于預測數(shù)據(jù)記錄的屬性信息來生成與預測數(shù)據(jù)記錄對應的預測樣本的多個特征子集;以及(C)將預測樣本的多個特征子集分別提供給復合機器學習模型所包括的子模型,以得到復合機器學習模型針對預測樣本的預測結(jié)果,其中,在所述復合機器學習模型中,所述子模型根據(jù)梯度提升框架訓練而成。
可選地,在所述方法中,所述子模型包括至少一個線性子模型和至少一個決策樹子模型。
可選地,在所述方法中,所述子模型包括至少一個上下層嵌套的復合子模型。
可選地,在所述方法中,所述子模型還包括至少一個線性子模型和/或至少一個決策樹子模型。
可選地,在所述方法中,所述復合子模型的上層模型為一個決策樹模型部分,并且,所述復合子模型的下層模型為至少一個線性模型部分,其中,每個線性模型部分對應于決策樹模型部分的一個葉子節(jié)點。
可選地,在所述方法中,在步驟(B)中,基于預測數(shù)據(jù)記錄的屬性信息來生成預測樣本的特征,并根據(jù)特征的取值連續(xù)性和/或取值空間規(guī)模來生成預測樣本的決策樹特征子集和預測樣本的線性特征子集。
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于第四范式(北京)技術有限公司,未經(jīng)第四范式(北京)技術有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110773264.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





