[發明專利]用于預測眾包數據的正確標簽的方法及系統在審
| 申請號: | 202110028695.4 | 申請日: | 2021-01-11 |
| 公開(公告)號: | CN112766337A | 公開(公告)日: | 2021-05-07 |
| 發明(設計)人: | 陳益強;盧旺;于漢超;楊曉東;張迎偉;谷洋 | 申請(專利權)人: | 中國科學院計算技術研究所;鵬城實驗室 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/08 |
| 代理公司: | 北京泛華偉業知識產權代理有限公司 11280 | 代理人: | 王勇 |
| 地址: | 100190 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 預測 數據 正確 標簽 方法 系統 | ||
本發明提供了一種用于預測眾包數據的正確標簽的方法和系統,該方法利用了一種神經網絡模型,該模型基于每個眾包數據的所有初始標簽的均值獲取對應的眾包數據的參考標簽,通過訓練獲得;并利用神經網絡模型獲得每個眾包數據的預測標簽,基于每個眾包數據的每個初始標簽相對于預測標簽的可信度迭代校準當前神經網絡模型,直至神經網絡模型收斂或精度持續下降。本發明中的方法和系統能夠減少對深度學習中對眾包數據工作者能力的依賴,從而提高深度學習模型的準確度和魯棒性。
技術領域
本發明涉及數據挖掘分析技術領域,尤其涉及用于預測眾包數據的正確標簽的方法及系統。
背景技術
近年來,深度學習顯著提高了機器學習各個分支的先進技術水平,給機器學習領域帶來了變革。隨著監督式人工神經網絡的規模不斷增大,深度學習技術在學習特征表示過程中對準確的、有標簽的數據集的需求量也越來越大。眾包方法通過將標簽任務分發給不同的工作者,可以在短時間內獲取大量有標簽數據,并大規模減少了標簽成本,是一種快速、有效、廉價的數據標簽獲取方法,因此被廣泛應用于大規模數據標簽。然而,由于眾包方法引入大量非專家工作者,再加上樣本難度不一、工作者能力不一等因素,導致數據標簽中存在不同程度的噪聲。
針對上述問題,很多學者和研究人員進行了相關研究。例如,中國專利申請CN201711113706.9公開了一種眾包代價復雜度獲取方法,通過任務分配模塊將眾包任務分配給從工作者池中選擇的一組工作者,由任務分配模塊進行任務分配后得到參加任務處理的工作者能力的概率分布以及工作者分布的方差和期望,通過參數學習模型進行參數學習,獲取工作者參數,利用結果匯聚模塊獲取任務結果,根據工作者參數獲得眾包處理過程代價復雜度。中國專利申請CN201510958745.3公開了一種眾包標注整合方法,利用正則化超參數、間隔距離超參數、標注者投票權重以及標注者將當前預測項目標注為對應的估計值的次數與標注者將當前預測項目標注為次類別的次數的差值定義一個廣義反高斯分布,并采樣得到了輔助參量,并利用輔助參量更新了標注者權重,從而可以顯著增強模型的判別能力。然后整合了傳統的標注整合多數投票模型和混淆矩陣模型,進而實現了更全面描述數據生成過程的目的。中國專利申請CN201910770300.0公開了一種基于眾包重復標簽的深度學習目標檢測方法及系統,首先接收應用場景下原始訓練集圖片,并收集數據標簽;然后對原始訓練集圖片進行預處理,得到預處理好的數據;接著用預處理好的數據訓練CrowdR-CNN目標檢測模型,在兩階段模型的基礎上,根據數據標簽增添標簽聚集層,使得依據標注者個體敏感性推理目標真實類別,以根據檢測數據通過CrowdR-CNN網絡得到預測結果。還有一種基于深度學習的眾包方法,通過在輸出層之后加入一個眾包層(crowdlayer),該層模仿眾包數據工作者的能力,達到真實標簽與眾包標簽轉化的目的,從而能夠端到端地處理眾包數據。
然而,現有的深度學習眾包方法通常依賴于工作者能力進行推斷,由于工作者能力難以估計,通過工作者能力進行樣本標簽推斷往往會由于對具體樣本數據工作者能力判定的不準確導致最終結果不理想。
因此,亟需一種預測眾包數據的正確標簽的方法和系統。
發明內容
因此,本發明實施例的目的在于克服上述現有技術的缺陷,提供一種用于預測眾包數據的正確標簽的方法及系統,以減少對眾包數據中工作者能力的依賴,從而提高深度學習模型的準確度和魯棒性。
上述目的是通過以下技術方案實現的:
根據本發明實施例的第一方面,提供了一種用于預測眾包數據的正確標簽的模型訓練方法,包括:獲取眾包數據集,所述眾包數據集中的每個眾包數據都具有若干個初始標簽;基于所述每個眾包數據的所有初始標簽的均值獲取對應的眾包數據的參考標簽,以訓練神經網絡模型;利用所述神經網絡模型獲得所述每個眾包數據的預測標簽,并基于所述每個眾包數據的每個初始標簽相對于所述預測標簽的可信度校準所述神經網絡模型;直至所述神經網絡模型收斂或精度持續下降。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所;鵬城實驗室,未經中國科學院計算技術研究所;鵬城實驗室許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110028695.4/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





