[發明專利]一種基于集成TSK模糊分類器的眾包質量提升的方法有效
| 申請號: | 202010039850.8 | 申請日: | 2020-01-15 |
| 公開(公告)號: | CN111444937B | 公開(公告)日: | 2023-05-12 |
| 發明(設計)人: | 蔣云良;張雄濤;胡文軍;鄔惠峰 | 申請(專利權)人: | 湖州師范學院 |
| 主分類號: | G06F18/2413 | 分類號: | G06F18/2413;G06F18/214;G06F18/2337;G06N20/20 |
| 代理公司: | 杭州中利知識產權代理事務所(普通合伙) 33301 | 代理人: | 韓洪 |
| 地址: | 313000 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 集成 tsk 模糊 分類 質量 提升 方法 | ||
本發明提出了一種基于集成TSK模糊分類器的眾包質量提升的方法,包括以下步驟:利用含有標簽噪音的兩分類數據構建多個具有抗噪能力的TSK模糊分類器TSK?noise?FC,在挑選出的不含噪音數據的驗證集上產生多個增強屬性,從而生成增強驗證集;利用經典的模糊聚類算法FCM對增強驗證集進行聚類,形成含有標簽的多代表點數據,記做數據字典,利用生成的數據字典,對含有標簽噪音的數據進行快速矯正,對于每一個含噪音數據的眾包數據,找到其最近的代表點,該代表點的標簽就是預測的結果。該方法能夠降低眾包的成本,而且運行速度快,多個具有抗噪能力的弱分類器可以并行運行,對于眾包數據的預測,只需要找到最近的含有標簽的代表點,此代表點的標簽就是該眾包數據的矯正結果。
【技術領域】
本發明涉及眾包系統的技術領域,特別是一種基于集成TSK模糊分類器的眾包質量提升的方法。
【背景技術】
眾包一詞最早是由JeffHowe在2006年提出,即將過去由一個公司或組織內部員工執行的工作,以自由自愿的形式交給大眾去完成,然后付給個人一定的報酬。其出現是作為一種分布式的問題解決和生產模式,用以降低任務完成的成本。眾包系統利用大量網絡工作者的多種技能來解決問題和執行項目。事實上,一些開源的軟件(Linux項目)和維基百科都可以被視為眾包產品,典型地,全世界最大的圖像數據集ImageNet的標注,也是通過眾包實現的。這些眾包系統包括Amazon?MTurk和Crowd?Flower最近得到了很大的普及,因為其將請求者將所要解決的問題張貼到擁有大量在線工作人員的眾包平臺上,為問題得以迅速解決提供了方便的途徑。眾包成功的應用在了對圖像和文檔的標注,編寫和審閱軟件代碼,大型產品的設計,籌集資金等。眾包的初衷就是為了降低成本,找全世界的工人(專業或業余)來完成一件龐大的工程或項目。
一個完整的眾包系統,其工作流程包括任務的分配和接受,眾包平臺的設計,任務的選擇、接受和解答,以及最后答案的提交與整合。其中,最后答案的整合直接決定了眾包的成敗。雖然眾包的應用加速了大型應用問題的解決,但是由于完成任務的工人都是匿名的,這樣不可避免會出現噪音甚至惡意標記(比如圖像或文檔的標記)的發生。即便惡意的工人目前仍是少數,識別出他們,并且提高眾包標簽的質量仍是一件很重要的事情。目前有兩種路徑提高眾包的質量,一種是每個任務分配一個工人,即每一條數據只有一個標簽。眾包完成后,首先對所有的數據使用過濾器進行過濾,將有噪音標簽的數據過濾掉,再使用相關的矯正算法對有噪音標簽的數據進行矯正。第二種途徑是將每個任務分配給多個工人,最后以某種方式或策略將他們的答案進行整合。可以用簡單的投票表決方法,這種方法假設每個工人的答題準確率是一致的,沒有考慮工人的多樣性和差異性,例如欺詐者和不具備此任務專業知識的答題者,答題準確率較低,因此這種方法往往不夠準確。后來有研究者提出了EM(Expectation?Maximization)算法,即將工人之前的答題準確率和工人目前給出的答案相結合,利用貝葉斯理論得到最終的結果。由于工人的準確率在不斷的變化,EM算法是一個迭代的過程,因此計算量特別大,無形中也增加了眾包的計算成本。由于工人每完成一個任務,眾包平臺都要支付一定的報酬給工人,將每個任務分配給多個工人,這也在一定程度上增加了眾包的經濟成本。
本發明的方法基于上述的第一種途徑,利用基于集成學習的模糊分類器來降低噪音,提高標簽質量。在構造模糊分類器的時候,考慮到多分類任務的復雜性,而且目前大多數眾包標簽矯正算法都只針對兩分類任務,因此本發明提出的標簽矯正算法也只針對兩分類任務,即y∈{-1,1}。在分配眾包任務的時候,由于各工人專業知識的差異性和欺詐者的存在,眾包標簽存在很大的不確定性,因此,采用模糊分類器,模糊分類器能夠處理不確定數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖州師范學院,未經湖州師范學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010039850.8/2.html,轉載請聲明來源鉆瓜專利網。





