[發明專利]基于圖神經網絡的眾包標簽推測方法及系統有效
| 申請號: | 202010034292.6 | 申請日: | 2020-01-13 |
| 公開(公告)號: | CN111275079B | 公開(公告)日: | 2023-07-04 |
| 發明(設計)人: | 紀守領;吳含露;陳建海;林昶廷;鄧水光 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06V10/764 | 分類號: | G06V10/764;G06V10/40;G06V10/82;G06N3/0464 |
| 代理公司: | 杭州天勤知識產權代理有限公司 33224 | 代理人: | 馬士林 |
| 地址: | 310013 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 神經網絡 標簽 推測 方法 系統 | ||
本發明公開了一種基于圖神經網絡的眾包標簽推測方法及系統,包括以下步驟:(1)對眾包標簽進行數據處理,得到標注人員及任務的初始特征;(2)為標注人員的任務分配情況構建標注人員?任務異構圖、標注人員同構圖以及任務同構圖;(3)將標注人員?任務異構圖、標注人員同構圖以及任務同構圖輸入到圖神經網絡中,獲得任務節點的嵌入特征;(4)將獲得的任務節點的嵌入特征輸入到預測層中,得到任務屬于各個標簽的概率,概率最大的標簽視為該任務的正確標簽。本發明利用圖神經網絡實現高準確率的眾包標簽推測,將利于產生大量可用的機器學習訓練數據,幫助人們訓練算法模型并提高AI領域的競爭力。
技術領域
本發明涉及眾包模式的標簽推測領域,尤其涉及一種基于圖神經網絡的眾包標簽推測方法及系統。
背景技術
機器學習,尤其是監督學習,已被廣泛應用于計算機視覺、自然語言處理等領域。由于監督學習需要大量已知正確標簽的樣本來訓練模型,傳統的方法是由領域專家審閱樣本并為其打上正確的標簽,該方法通常昂貴而且費時,無法滿足對標簽數據日益增長的需求。
現如今,眾包(Crowdsourcing)以其低成本和高效率的特點成為了獲取數據標簽最重要的工具之一。借助Amazon?Mechanical?Turk(AMT)和CrowdFlower等在線平臺,人們可以便捷地獲取和利用眾包資源。在這些平臺中,每個任務將被分配給不同的標注人員,標注人員返回該任務的標簽,這些標簽不一定是正確的(為區別于正確標簽,稱這些標簽為眾包標簽)。一旦獲得了標注人員們對某項任務的標簽,則獲得該任務正確標簽的一種直觀策略就是多數投票算法(Majority?Voting),即假設每個標注人員具有等同的票數,并將獲得標注人員票數最多的標簽視為正確標簽。但是,由于各種各樣的因素,眾包標簽不可避免地會產生噪音。例如,標注人員具有不同的專業性和可靠性,而任務也有不同程度的難度和迷惑性。因此,簡單策略如多數投票很難得出可靠的推論,尤其是在眾包標簽質量較低的情況下。
現有眾包標簽推測工作的一系列發現表明,為各個標注人員以及任務的潛在特征進行建模至關重要。基于推斷正確標簽的關鍵因素為標注人員的能力情況和任務的困難程度的假設上,研究人員提出了許多概率模型,實現在性能上超越多數投票策略。但是,這些模型往往需要人們為其精心設計復雜的生成過程和推理算法,并且也不適用于規模較大的數據集。還有一些深度學習模型試圖同時學習分類器模型和標簽聚合模型,但是這些模型需要額外的任務特征,并且很少考慮到標注人員與任務之間的雙向交互。
發明內容
本發明提供了一種基于圖神經網絡的眾包標簽推測方法,該方法利用圖神經網絡實現高準確率的眾包標簽推測,將利于產生大量可用的機器學習訓練數據,幫助人們訓練算法模型并提高AI領域的競爭力。
具體技術方案如下:
一種基于圖神經網絡的眾包標簽推測方法,包括以下步驟:
(1)對眾包標簽進行數據處理,得到標注人員及任務的初始特征;
(2)為標注人員的任務分配情況構建標注人員-任務異構圖、標注人員同構圖以及任務同構圖;
(3)將標注人員-任務異構圖、標注人員同構圖以及任務同構圖輸入到圖神經網絡中,獲得任務節點的嵌入特征;
(4)將獲得的任務節點的嵌入特征輸入到預測層中,得到任務屬于各個標簽的概率,概率最大的標簽視為該任務的正確標簽。
本發明的眾包標簽推測方法使用眾包標簽數據為標注人員與任務構建關系網絡,對標注人員以及任務進行建模,從而利用標注人員以及任務的隱含信息、標注人員之間的隱含聯系、任務之間的隱含聯系,對任務的正確標簽進行更精準的推測。
眾包標簽數據來自于標注人員對任務的標注,記標注人員數量為n,任務數量為m,每個標注人員為數目不等的任務(≤m)提供標注。
步驟(1)中,對眾包標簽進行數據處理,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010034292.6/2.html,轉載請聲明來源鉆瓜專利網。





