[發明專利]基于全局和局部標記關系的偏多標記學習方法在審
| 申請號: | 202010411579.6 | 申請日: | 2020-05-15 |
| 公開(公告)號: | CN111582506A | 公開(公告)日: | 2020-08-25 |
| 發明(設計)人: | 馮松鶴;李浥東;孫利娟;金一 | 申請(專利權)人: | 北京交通大學 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 北京市商泰律師事務所 11255 | 代理人: | 黃曉軍 |
| 地址: | 100044 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 全局 局部 標記 關系 學習方法 | ||
本發明提供了一種基于全局和局部標記關系的偏多標記學習方法。該方法包括:構建特征信息矩陣,利用特征信息矩陣構建不精確標記矩陣;利用低秩稀疏表示模型將不精確標記矩陣分解為噪聲標記矩陣和正確標記系數矩陣,利用噪聲標記矩陣、正確標記系數矩陣和特征信息矩陣構建所有標記的預測模型;基于正確標記系數矩陣、噪聲矩陣和預測模型構建偏多標記學習模型,采用塊坐標下降法迭代更新方法訓練偏多標記學習模型,得到訓練好的預測模型;將未見示例輸入到訓練好的預測模型,得到未見示例對應的標記。本發明的方法充分利用了全局和局部標簽的相關性,去除有噪聲的標簽,通過低秩表示來訓練分類器,從而提高算法的性能。
技術領域
本發明涉及計算機應用技術領域,尤其涉及一種基于全局和局部標記關系的偏多標記學習方法。
背景技術
多標記學習研究的是一個樣本關聯多個標記的問題,即樣本的候選標記集中含有兩個及以上的標記。隨著傳統行業的數字化、互聯網技術的發展,產生的數據越來越多,需要標注的數據也在急劇增加。本身標注多標記數據就很費時費力,數據量急劇增大,導致標注者只能粗略的標注數據。因此在實際應用中,人們拿到的標注數據對應的候選標記集中除了相關標記外,還包含了多余的不相關標記,這類標記冗余問題被定義為偏多標記學習問題。如何利用這些不精確標注的數據構建有效的學習模型,是目前機器學習的研究熱點。
雖然偏多標記學習剛成為最新的研究熱點,但已經有一些工作開始嘗試處理這類問題。例如,2018年黃圣君等人首次將標記冗余的問題定義為偏多標記學習問題,并提出PML-lc和PML-fp學習算法,通過標記相關性或者特征信息來學習標記置信度,利用標記置信度來度量每個候選標記成為真實標記的概率,并根據標記的排名得到正確的標簽。張敏靈等人提出了一種的兩階段的偏多標記學習方法PML-VLS和PML-MAP,該方法通過利用啟發式的可信標記從候選標簽集中提取可信的標簽來工作。為了進一步提高偏多標記學習方法的去噪能力,PML-LRS將觀測的候選標記矩陣分解為一個真實標記矩陣和一個不相關的標簽矩陣,前者被約束為低秩,后者被假設為稀疏的。然后利用特征映射矩陣來探索標簽的相關性,同時將特征映射矩陣約束為低秩,以防止過擬合。
另外,一些工作試圖通過嵌入特征信息來處理偏多標記學習問題。例如,余國先等人提出了一種基于特征誘導的偏多標記學習算法,該算法利用標記與特征之間的潛在依賴關系識別噪聲標簽,并訓練預測模型。不同于前面的做法,DRAMA利用標記與特征之間的依賴關系得到標記置信度,然后基于得到的標記置信度,提出了梯度增強算法來學習預測模型。PML-NI是一種新的PML方法,它假設噪聲標簽通常是由示例中某些模糊內容引起的,并通過將預測模型矩陣分解為基真標簽預測和噪聲標簽識別來解決偏多標記學習問題。
上述現有技術中的偏多標記學習方法的缺點為:現有技術中的偏多標記學習方法沒有充分利用標記相關性。只是簡單地使用兩個標簽的共現率作為局部標記相關性來學習置信值。由于噪聲標簽的存在,這種方法獲得的標記置信值是不可靠的,甚至會影響偏多標記學習方法的性能。
現有技術中的偏多標記學習方法直觀地利用全局標簽的相關性,將低秩的基本真值標簽矩陣分解為兩個較小的矩陣。但是實際應用中很難確定兩個較小的矩陣的最佳大小,沒有考慮特征信息可能是有噪聲的,這可能會影響學習標記的相關性。
發明內容
本發明的實施例提供了一種基于全局和局部標記關系的偏多標記學習方法,以克服現有技術的問題。
為了實現上述目的,本發明采取了如下技術方案。
一種基于全局和局部標記關系的偏多標記學習方法,包括:
構建特征信息矩陣,對所述特征信息矩陣中的特征數據進行歸一化處理,構建不精確標記矩陣;
利用低秩稀疏表示模型將所述不精確標記矩陣分解為噪聲標記矩陣和正確標記系數矩陣,利用所述噪聲標記矩陣、正確標記系數矩陣和特征信息矩陣構建所有標記的預測模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京交通大學,未經北京交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010411579.6/2.html,轉載請聲明來源鉆瓜專利網。





