[發明專利]機器學習模型的訓練方法及裝置、樣本處理方法及裝置有效
| 申請號: | 202010104680.7 | 申請日: | 2020-02-20 |
| 公開(公告)號: | CN111340233B | 公開(公告)日: | 2022-08-09 |
| 發明(設計)人: | 張望舒;溫祖杰 | 申請(專利權)人: | 支付寶(杭州)信息技術有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06N3/08;G06N7/00 |
| 代理公司: | 北京億騰知識產權代理事務所(普通合伙) 11309 | 代理人: | 陳霽;周良玉 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 機器 學習 模型 訓練 方法 裝置 樣本 處理 | ||
本說明書實施例提供一種機器學習模型的訓練方法,該方法包括:基于獲取的原始樣本集,對執行相同任務的多個預測模型進行多輪訓練,得到多個訓練后模型。其中任一輪訓練具體包括:先對原始樣本集進行采樣,得到若干原始樣本,其中包括任意的第一原始樣本,此樣本中包括第一樣本特征和第一樣本標簽;接著將第一樣本特征分別輸入多個預測模型中,得到多個第一預測結果;然后至少基于多個第一預測結果和第一樣本標簽,確定出現頻次最高的第一最高頻結果;進一步地,在第一最高頻結果唯一的情況下,利用該結果對所述第一樣本標簽進行修正,得到第一修正樣本;再接著利用根據所述若干原始樣本得到的若干修正樣本,分別訓練所述多個預測模型。
技術領域
本說明書一個或多個實施例涉及計算機技術領域,尤其涉及一種機器學習模型的訓練方法及裝置,以及一種樣本處理方法及裝置。
背景技術
隨著機器學習的興起,許多領域嘗試訓練機器學習模型,以完成特定任務。比如說,在圖片處理領域,通過訓練圖片識別模型,來識別圖片中包含的目標對象。又比如說,在客服領域,通過訓練標問預測模型,來確定用戶會話對應的標準問題。
目前,對于訓練得到的機器學習模型,其預測性能很大程度上依賴訓練樣本的質量和數量。通常,訓練樣本的質量越高、數量越多,訓練所得模型的預測性能越優。然而,實際出于多種原因,獲取足夠數量的高質量訓練樣本十分困難,并且獲取的訓練樣本中或多或少存在標注不準確或錯誤的樣本。
因此,迫切需要一種合理、可靠的方案,可以利用存在低質量訓練樣本的訓練樣本集,訓練出性能較優的機器學習模型。
發明內容
本說明書一個或多個實施例描述了一種機器學習模型的訓練方法及裝置,相較于直接利用原始樣本集訓練機器學習模型,通過對原始樣本集中的樣本進行去噪、優化處理,可以進一步提高機器學習模型的預測性能。
根據第一方面,提供一種機器學習模型的訓練方法,該方法包括:獲取原始樣本集和用于執行相同任務的多個預測模型;基于原始樣本集,對所述多個預測模型進行多輪訓練,得到多個訓練后模型;其中,所述多輪訓練中的任一輪訓練具體包括:對所述原始樣本集進行采樣,得到若干原始樣本,其中包括任意的第一原始樣本,所述第一原始樣本中包括第一樣本特征和第一樣本標簽;將所述第一樣本特征分別輸入所述多個預測模型中,得到多個第一預測結果;至少基于所述多個第一預測結果和所述第一樣本標簽,確定出現頻次最高的第一最高頻結果;在所述第一最高頻結果唯一的情況下,利用所述第一最高頻結果對所述第一樣本標簽進行修正,得到第一修正樣本;利用根據所述若干原始樣本得到的若干修正樣本,分別訓練多個預測模型。
在一個實施例中,所述原始樣本集為圖片樣本集,所述相同任務為圖片處理任務,所述多個預測模型為多個圖片處理模型;或,所述原始樣本集為文本樣本集,所述相同任務為文本處理任務,所述多個預測模型為多個文本處理模型;或,所述原始樣本集為音頻樣本集,所述相同任務為音頻處理任務,所述多個預測模型為多個音頻處理模型。
在一個實施例中,所述第一原始樣本為客服場景下的第一用戶會話樣本,所述第一樣本特征包括第一用戶會話特征,所述第一樣本標簽指示第一用戶標準問題,所述相同任務為確定用戶會話對應的標準問題,所述多個預測模型為多個標問預測模型。
在一個實施例中,獲取的多個預測模型為N個預訓練模型,所述N個預訓練模型基于以下步驟而得到:將所述將原始樣本集分割為N個樣本集,其中包括第i個樣本集;獲取參數初始化的N個初始模型,其中包括第i個初始模型;利用所述第i個樣本集訓練第i個初始模型,得到第i個預訓練模型,歸入所述N個預訓練模型;其中,i和N為正整數,并且N≥2,i≤N。
在一個具體的實施例中,所述N個初始模型對應N套初始化模型參數,所述N套初始化模型參數中任意的兩套模型參數不完全相同。
在一個更具體的實施例中,獲取參數初始化的N個初始模型,包括:設定互不相同的N個隨機種子;基于隨機算法,利用所述N個隨機種子對應生成N套隨機數,作為所述N套初始化模型參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于支付寶(杭州)信息技術有限公司,未經支付寶(杭州)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010104680.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:類型確定方法及裝置
- 下一篇:基于AMP系統的FLASH訪問處理方法及裝置





