[發明專利]一種機器學習方法以及裝置在審
| 申請號: | 202011375881.7 | 申請日: | 2020-11-30 |
| 公開(公告)號: | CN112801265A | 公開(公告)日: | 2021-05-14 |
| 發明(設計)人: | 楊擴;葉翰嘉;洪藍青;胡海林 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 陳松浩 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 機器 學習方法 以及 裝置 | ||
本申請公開了人工智能領域的一種機器學習方法以及裝置,用于在小樣本學習中,通過構建數據集對應的概念空間,基于樣本在空間中的度量來訓練模型,得到輸出精度更高的模型。該方法包括:支撐集和查詢集中樣本包括的多種類型的信息對應多個維度的概念空間;目標神經網絡中包括元模型和概念空間映射模型,對目標神經網絡的任意一次更新過程包括:元模型提取支撐樣本以及查詢樣本的特征得到第一特征向量和第二特征向量;概念空間映射模型將元模型輸出的特征向量映射至概念空間,并計算概念空間中查詢樣本和支撐樣本之間的距離;基于該距離得到查詢樣本的預測標簽,隨后計算損失值并更新目標神經網絡,得到當前次迭代更新后的目標神經網絡。
技術領域
本申請涉及人工智能領域,尤其涉及一種機器學習方法以及裝置。
背景技術
現有機器學習算法在樣本量充足的情況下,有著十分優秀的表現。但在實際應用中,由于人工標注成本高、標注不可得等問題,開始關注小樣本學習(Few-shot Learning)的解決方案——要求機器學習算法在訓練樣本有限的情況下,也可以給出合理的預測結果。
元學習(Meta-learning)是小樣本學習問題的一種解決范式。元學習通過在樣本充足的訓練集中隨機采樣大量與目標小樣本任務相似的任務,訓練一個有較好泛化性能的元模型 (meta-model),該元模型在目標任務的少量訓練樣本上進行學習,最終得到適合該目標小樣本任務的預測模型。
然而,在進行小樣本學習時,對元模型的每次更新基于當前小樣本任務涉及的類別,可能因相同或者相似樣本之間的區別,或者,因相同或者不同類別的樣本之間的區別等,導致訓練得到的模型輸出精度較低。
發明內容
本申請提供一種機器學習方法以及裝置,用于在小樣本學習中,通過構建數據集對應的概念空間,基于樣本在空間中的度量來訓練模型,得到輸出精度更高的模型。
有鑒于此,第一方面,本申請提供一種機器學習方法,其特征在于,包括:
獲取支撐集和查詢集,支撐集和查詢集中樣本包括的實際標簽(label)包括多種類型的信息,多種類型的信息對應多個維度的概念空間;隨后,使用支撐集和查詢集對目標神經網絡進行至少一次迭代更新,得到更新后的目標神經網絡,其中,目標神經網絡中包括元模型和概念空間映射模型,至少一次迭代更新中的任意一次更新包括:將支撐集中的至少一個支撐樣本作為元模型的輸入,得到至少一組第一特征向量,以及將查詢集中的至少一個查詢樣本作為元模型的輸入,得到至少一組第二特征向量,元模型用于提取輸入的樣本的特征;通過概念空間映射模型,將至少一組第一特征向量映射至多個維度的概念空間中,得到至少一組第三特征向量,以及將至少一組第二特征向量映射至多個維度的概念空間中,得到至少一組第四特征向量;根據至少一組第三特征向量和至少一組第四特征向量,得到在多個維度的概念空間中,至少一個查詢樣本和至少一個支撐樣本之間的距離;根據至少一個查詢樣本和至少一個支撐樣本之間的距離,得到至少一個查詢樣本得到預測標簽;根據至少一個查詢樣本的預測標簽獲取至少一個查詢樣本的損失值;根據至少一個查詢樣本的損失值更新目標神經網絡,得到當前次迭代更新后的目標神經網絡。
因此,在本申請實施方式中,可以基于支撐集和查詢集包括的樣本來構建概念空間,并將樣本映射至每個維度的概念空間中,然后可以使用樣本在該概念空間之間的距離,來訓練目標神經網絡。該距離可以表示樣本之間的關聯程度,從而使訓練目標神經網絡的過程中,可以基于樣本之間的關聯程度的關聯度進行訓練,從而使最終得到的目標神經網絡的輸出準確率更高。
在一種可能的實施方式中,目標神經網絡還包括概率預測模型,概率預測模型用于計算輸入的向量對應的樣本與多個維度之間的關聯度,上述方法還可以包括:將至少一組第一特征向量作為概率預測模型的輸入,輸出至少一組第一概率向量,以及將至少一組第二特征向量作為概率預測模型的輸入,輸出至少一組第二概率向量,概率預測模型用于計算輸入的向量對應的樣本與多個維度的關聯度,至少一組第一概率向量和至少一組第二概率向量用于得到至少一個查詢樣本得到預測標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011375881.7/2.html,轉載請聲明來源鉆瓜專利網。





