[發明專利]構建基于PU學習的模型的方法、裝置及預測方法、裝置在審
| 申請號: | 201910333907.2 | 申請日: | 2019-04-24 |
| 公開(公告)號: | CN110084374A | 公開(公告)日: | 2019-08-02 |
| 發明(設計)人: | 涂威威;王海 | 申請(專利權)人: | 第四范式(北京)技術有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 北京鼎佳達知識產權代理事務所(普通合伙) 11348 | 代理人: | 王偉鋒;劉鐵生 |
| 地址: | 100085 北京市海淀區上*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 候選模型 樣本數據 構建 評估結果 預設 評估 標簽 學習 機器學習技術 模型訓練過程 標記樣本 模型構建 目標模型 評估條件 業務經驗 預設條件 正樣本 預測 門檻 | ||
本發明公開了構建基于PU學習的模型的方法、裝置及預測方法、裝置,涉及機器學習技術領域,主要目的在于解決解決現有PU學習的模型訓練過程中,需要操作人員具備一定的業務經驗所導致的模型構建的難度較大、門檻較高的問題。本發明主要的技術方案為:獲取樣本數據集,所述樣本數據集中包括帶正標簽的正樣本數據及無標簽的未標記樣本數據;基于所述樣本數據集訓練得到多個候選模型;基于所述樣本數據集構造評估集;根據所述評估集,以及預設評估條件分別對每個候選模型進行評估,得到對應每個候選模型的評估結果;選擇評估結果符合預設條件的候選模型;根據預設的集成方法對所選擇的模型進行集成,得到目標模型。本發明用于對PU學習的模型進行構建。
技術領域
本發明涉及機器學習技術領域,尤其涉及一種構建基于PU學習的模型的方法、裝置以及利用該模型進行預測的方法、裝置。
背景技術
隨著技術的不斷進步,人工智能技術也逐步發展。其中,機器學習是人工智能研究發展到一定階段的必然產物,其致力于通過計算的手段,利用經驗來改善系統自身的性能。在計算機系統中,“經驗”通常以“數據”形式存在,通過機器學習算法,可從數據中產生“模型”,也就是說,將經驗數據提供給機器學習算法,就能基于這些經驗數據產生模型,在面對新的情況時,模型會提供相應的判斷,即,預測結果。不論是訓練機器學習模型,還是利用訓練好的機器學習模型進行預測,數據都需要轉換為包括各種特征的機器學習樣本。
目前,在現實應用中,數據的獲取是相對容易的,而對數據的標記則需要花費較高的人力、物力等資源,因此往往在某個數據集中會存在少量已標記的數據,記作正樣本,以及大量未標記的數據。對于這種情況,一般會選擇使用PU學習(Positive and unlabeledlearning,簡稱PU Learning)進行模型的訓練。例如,在致病基因檢測中,當已經識別出了一些致病基因后,可以將這部分基因視作正樣本P,那么負樣本則為非致病基因,但是我們并不能確定某一個基因到底是不是非致病基因,因為這個基因可能也是致病基因,只是我們還未發現而已,那么我們則可將這部分基因視作無標記樣本U,由此我們的目標可以在P+U數據集上進行訓練模型,使得訓練后得到的模型能夠識別出致病基因。
然而,在實際應用中,在通過PU學習來訓練模型的過程中,往往是將未標記樣本當做“負樣本”進行模型的訓練。而事實上,例如在銀行卡漏點檢測、商品或服務的推薦,以及圖像或文本的分類等諸多領域中,有標記的數據僅為一小部分,大部分的數據仍屬于未標記的數據。即在數據集中僅有少量的正樣本,而其他均為未標記樣本。在基于PU學習的模型訓練過程中,針對不同的場景,PU學習模型的算法及超參數的選擇是不同的,即在訓練基于PU學習的模型時,操作人員需要具備針對不同場景的業務經驗才能訓練出較為適合的模型,從而導致現有的PU學習的模型在構建過程中,構建模型的門檻較高。
發明內容
鑒于上述問題,本發明提出了一種構建基于PU學習的模型的方法及裝置,主要目的在于解決現有PU學習的模型訓練過程中,需要操作人員具備一定的業務經驗所導致的模型構建的難度較大、門檻較高的問題,從而降低構建模型的門檻。
為達到上述目的,本發明主要提供如下技術方案:
一方面,本發明提供一種構建基于PU學習的模型方法,具體包括:
獲取樣本數據集,所述樣本數據集中包括帶正標簽的正樣本數據及無標簽的未標記樣本數據;
基于所述樣本數據集訓練得到多個候選模型;
基于所述樣本數據集構造評估集;
根據所述評估集,以及預設評估條件分別對每個候選模型進行評估,得到對應每個候選模型的評估結果;
選擇評估結果符合預設條件的候選模型;
根據預設的集成方法對所選擇的模型進行集成,得到目標模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于第四范式(北京)技術有限公司,未經第四范式(北京)技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910333907.2/2.html,轉載請聲明來源鉆瓜專利網。





