[發(fā)明專利]應用于自動人工智能的項目推薦的方法和系統(tǒng)在審
| 申請?zhí)枺?/td> | 202111437892.8 | 申請日: | 2021-11-29 |
| 公開(公告)號: | CN114580652A | 公開(公告)日: | 2022-06-03 |
| 發(fā)明(設計)人: | N·S·高巴赫;A·C·I·馬洛西;A·巴特扎吉 | 申請(專利權(quán))人: | 國際商業(yè)機器公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06N7/00;G06F16/9535 |
| 代理公司: | 北京市中咨律師事務所 11247 | 代理人: | 于靜;劉薇 |
| 地址: | 美國*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 應用于 自動 人工智能 項目 推薦 方法 系統(tǒng) | ||
本發(fā)明涉及一種應用于自動人工智能的項目推薦的方法和系統(tǒng)。存儲與多個流水線中的每個流水線的性能相對應并且用于多個數(shù)據(jù)集中的數(shù)據(jù)集的多個評級值。在潛在空間中確定多個數(shù)據(jù)集內(nèi)的每對數(shù)據(jù)集之間的距離。該距離與后悔的預期值相對應,該后悔是在所選擇的流水線針對該流水線用于第一數(shù)據(jù)集的性能被評級時所引發(fā)的。根據(jù)流水線的性能,該后悔是評級值的單調(diào)遞減函數(shù)。在潛在空間中聚類多個數(shù)據(jù)集,并且識別每個聚類中的代表性數(shù)據(jù)集。響應于接收到新數(shù)據(jù)集,根據(jù)與每個所選流水線在代表性數(shù)據(jù)集上的性能相對應的一組評級值,從多個流水線中選擇一組優(yōu)選流水線。在該組優(yōu)選流水線中處理該新數(shù)據(jù)集。
技術領域
本公開一般涉及項目推薦,并且在自動人工智能(AutoAI)領域中具有特定應用。提供了用于選擇優(yōu)選機器學習流水線以用于處理數(shù)據(jù)集的計算機實現(xiàn)的方法,以及實現(xiàn)這樣的方法的系統(tǒng)和計算機程序產(chǎn)品。相應的方法也被應用于基于網(wǎng)絡的項目推薦器系統(tǒng)中。
背景技術
機器學習(ML)模型廣泛用于科學和技術中,尤其應用于計算機視覺、語音識別、圖像處理、醫(yī)療診斷、遺傳分析、藥物設計、網(wǎng)絡故障分析和入侵者檢測。機器學習技術涉及相對于用于應用的基本模型來處理來自真實世界應用的訓練數(shù)據(jù)的數(shù)據(jù)集,以便訓練或優(yōu)化用于所討論的應用的模型。然后,可以應用該模型以基于在該應用中生成的新(先前未見過的)數(shù)據(jù)來執(zhí)行推斷任務。已經(jīng)開發(fā)了許多機器學習模型,包括基于人工神經(jīng)網(wǎng)絡的各種模型,諸如所謂的“深度學習”網(wǎng)絡,以及支持向量機、貝葉斯網(wǎng)絡、決策樹模型等等。考慮到對ML應用的日益增長的需求和可用的ML模型的不斷增長的數(shù)量,為不同應用選擇適當模型的過程變得日益重要。AutoAI系統(tǒng)旨在輔助此任務,從通過選擇、訓練和評估模型以及調(diào)諧模型參數(shù)來準備訓練數(shù)據(jù)集開始,將智能自動化應用于選擇和調(diào)諧機器學習流水線的過程。
發(fā)明內(nèi)容
本公開的一個方面提供了一種用于選擇優(yōu)選機器學習流水線以用于處理新數(shù)據(jù)集的計算機實現(xiàn)的方法。所述方法包括:針對多個機器學習流水線和由所述流水線先前處理的N個數(shù)據(jù)集,存儲評級值,每個評級值對流水線用于數(shù)據(jù)集的性能進行評級。對于所述先前處理的數(shù)據(jù)集中的每個對ui=1至N,uj=1至N,i≠j,所述方法在用于數(shù)據(jù)集的潛在空間中確定從ui至uj的距離di,j。所述距離di,j與后悔的預期值相對應,所述后悔是在基于用于數(shù)據(jù)集uj的評級值以預定方式被選擇的流水線針對數(shù)據(jù)集ui被評級時所引發(fā)的。在此,針對流水線的后悔是針對該流水線用于所述數(shù)據(jù)集ui的性能的評級值的單調(diào)遞減函數(shù)。然后,所述方法包括:在所述潛在空間中對所述先前處理的數(shù)據(jù)集進行聚類,并且識別每個聚類中的代表性數(shù)據(jù)集,對于所述代表性數(shù)據(jù)集,從該聚類中的其他數(shù)據(jù)集到該數(shù)據(jù)集的距離在該聚類上被最小化。所述方法還包括:響應于接收到新數(shù)據(jù)集,選擇一組優(yōu)選流水線以用于處理所述新數(shù)據(jù)集,每個優(yōu)選流水線是根據(jù)用于代表性數(shù)據(jù)集的評級值來選擇的。然后在該組優(yōu)選流水線中處理所述新數(shù)據(jù)集。
體現(xiàn)本公開的此方面的方法利用潛在空間,其中基于“成對預期后悔”的概念來嵌入數(shù)據(jù)集,以便為新數(shù)據(jù)集選擇優(yōu)選流水線。當基于針對另一數(shù)據(jù)集的性能評級選擇流水線時,該成對預期后悔(其確定潛在空間中的每對數(shù)據(jù)集之間的距離)捕獲該流水線在數(shù)據(jù)集上的性能評級的預期下降。這些實施例還基于這樣的思想,即,所有數(shù)據(jù)集(包括新數(shù)據(jù)集)是從在潛在空間上的多模態(tài)概率分布中提取的。通過在該空間中聚類數(shù)據(jù)集,數(shù)據(jù)集可被分組成“鄰域”,對于該鄰域,可以識別多個代表性數(shù)據(jù)集(每個鄰域一個)。在潛在空間中,新數(shù)據(jù)集可能接近這些代表性數(shù)據(jù)集。通過基于代表性數(shù)據(jù)集的評級值來選擇優(yōu)選流水線,所選擇的流水線很可能對于新數(shù)據(jù)集被評級得很高。可以選擇流水線以最大化這種可能性,如下面詳細解釋的。因此,針對在AutoAI中為新數(shù)據(jù)集選擇優(yōu)選ML流水線的問題,體現(xiàn)本公開的方法提供了有效且簡潔的解決方案。這導致更高效的ML模型訓練、更好地執(zhí)行模型以及用于這些模型的用戶應用的改進操作。除了處理冷啟動問題之外,本公開的實施例還提供了對開發(fā)-探索權(quán)衡的改進控制。此優(yōu)點和其它優(yōu)點將在下面更詳細地解釋。
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國際商業(yè)機器公司,未經(jīng)國際商業(yè)機器公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111437892.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





