[發明專利]一種面向標簽不平衡性的半監督眾包標注數據整合方法有效
| 申請號: | 201610179728.4 | 申請日: | 2016-03-25 |
| 公開(公告)號: | CN105787521B | 公開(公告)日: | 2019-01-15 |
| 發明(設計)人: | 王東輝;洪高峰;李亞楠;藺越檀;莊越挺 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 韓介梅 |
| 地址: | 310027 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 標簽 不平衡 監督 標注 數據 整合 方法 | ||
本發明公開了一種面向標簽不平衡性的半監督眾包標注數據整合方法,其根據以下兩種現象:(1)標注者對標簽的標注準確率與對象無關;(2)標注者對同一對象的不同標注任務中考慮的權重相同;提出了新的加權參數的評估方法以及標注者能力的評估方法,并構建了面向標簽不平衡性的半監督眾包標注數據整合方法,利用迭代的方式進行求解,使得加權參數和標注者能力的評估更加客觀準確,整合的標注結果更加準確;同時本發明對各種類型的眾包標注數據均適用,包括但不限于:圖像、文本、視頻等數據形式的多類別標注等。
技術領域
本發明屬于數據標注技術領域,具體涉及一種面向標簽不平衡性的半監督眾包標注數據整合方法,該方法綜合考慮了加權參數與標注者能力。
背景技術
大數據時代來臨,從大數據中提取知識,是現今計算機領域最重要的研究方向,吸引了人工智能和機器學習等領域的目光。而機器學習等方法依賴于高質量的標注數據集來進行算法和模型訓練。因此,快速高效地構建高質量數據集具有十分重要的意義。過去的數據集構建主要依靠專家標注,通過雇傭的方式,經過一段時間的高強度工作來手工標注數據。這種方法具有高質量、高成本、難以成規模的特點。
近年來,眾包技術作為數據標注的新嘗試,引起了研究者的關注并快速發展。眾包技術是把之前由專家完成的任務,即計算機無法準確解決而人類容易解決的問題,外包給大眾去完成。在眾包技術進行數據標注時,需要把標注任務分配給標注者進行標注。但是由于標注者的能力所限,標注結果無法如專家標注般準確,所以會把同一個標注任務同時分配給多個標注者來完成,并從其標注數據中整合得到準確率更高的結果,這需要使用到眾包學習算法,即眾包標注數據整合方法。
目前已知的眾包標注數據整合方法中,最常用的方法是少數服從多數方法,即通過統計所有標注數據得到每個對象上各個標簽獲得的標簽數目,從中選擇數量最多的標簽作為此對象的最終標注結果。這種方法具有簡單方便的優點,但是相對的忽略了標注者之間的能力差異,把所有標注者統一對待。A.P.Dawid等人提出期望最大化算法,把各個標注者的標注能力建模為潛在混淆矩陣,從而形成相互推導公式,最終迭代收斂得到結果。后來Wei Tang等人提出了半監督的貝葉斯算法,對期望最大化算法進行了改進,利用已獲得的正確標簽精確對標注者能力的預估從而提高最終結果的準確率。上述算法雖然在一定程度上提高了對標注數據的整合精度,但是在此過程中,考慮到最終結果整合時假設每一種標簽種類獲得標注的概率是相同的。然而在實際標注中,標簽種類之間往往是不平衡的,彼此之間存在著一定的權重差異,需要引入加權參數來重新平衡標簽之間的關系。同時,不同的標注任務中權重必然是不同的,只能通過實際任務中進行訓練,無法預先設置。
發明內容
針對現有技術所存在的上述技術問題,本發明提供了一種面向標簽不平衡性的半監督眾包標注數據整合方法,通過已獲得的正確標簽訓練得到加權參數,之后基于加權參數和標注者能力生成一個更加準確的標注結果。
一種面向標簽不平衡性的半監督眾包標注數據整合方法,包括如下步驟:
(1)對于任一個標簽種類,根據已獲得的正確標簽及其對應的所有標注結果計算出每種標簽的加權參數;
(2)根據加權參數以及標注數據,獲得初始的整合結果;
(3)根據初始的整合結果以及標注數據,獲得每一個標注工作者的能力值;
(4)根據標注工作者的能力值、加權參數以及標注數據,重新整合得到標注結果;
(5)返回步驟(3)循環迭代,直至前后兩次獲得的標注結果一致,取此時的標注結果作為眾包標注數據的最終標注結果。
上述技術方案中,所述的步驟(1)中計算每種標簽加權參數的具體步驟如下:
1.1利用正確結果相對應的標注數據據統計出每個對象上每個標簽類獲取的標注總數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610179728.4/2.html,轉載請聲明來源鉆瓜專利網。





