[發明專利]一種眾包模式下的標簽數據統計推斷方法有效
| 申請號: | 201810975033.6 | 申請日: | 2018-08-24 |
| 公開(公告)號: | CN109284315B | 公開(公告)日: | 2021-04-23 |
| 發明(設計)人: | 劉端陽;弓箭峰;趙敏 | 申請(專利權)人: | 深圳莫比嗨客樹莓派智能機器人有限公司 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458 |
| 代理公司: | 大連至誠專利代理事務所(特殊普通合伙) 21242 | 代理人: | 楊威;涂文詩 |
| 地址: | 518000 廣東省深圳市南山區南頭街*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 模式 標簽 數據 統計 推斷 方法 | ||
本發明公開了一種眾包模式下的標簽數據統計推斷方法,本方法定義了最優目標函數,給出了標注員、對象等不同維度的約束條件,使用拉格朗日對偶變換進行模型的求解。拉格朗日變換中的拉格朗日乘子分別度量了標注員的專業水平和對象標注的難度,優化結果不受標記員的標注水準和個別標定任務的復雜度的影響。針對數據量較少的情況,加入了松弛變量以使結果達到更好的效果。
技術領域
本發明涉及數據挖掘與機器學習技術領域,更具體地,涉及一種眾包模式下的標簽數據統計推斷方法。
背景技術
隨著Internet技術的快速發展,眾包服務作為一種靈活、有效的解決方式,開始受到人們越來越多的關注。隨著Internet技術的不斷發展,眾包服務(crowdsourcing)應運而生,眾包指的是一個公司或機構把過去由員工執行的工作任務,以自由自愿的形式包給非特定的(而且通常是大型的)大眾網絡的做法。眾包的任務通常是由個人來承擔,但如果涉及到需要多人協作完成的任務,也有可能以依靠開源的個體生產的形式出現。
最近幾年,眾包領域的各方面研究都取得了很大的進展,提出了許多采用眾包手段的新型應用,出現了不少具體的處理方法,得到了不錯的工作效果。由于眾包應用產生在復雜的在線網絡交易平臺的背景中,開始出現了眾包應用的質量控制問題,因此研究如何有效地提高任務完成的質量,并將惡意工作者識別出來,成為了目前眾包研究工作中一個急需解決的問題,而且眾包平臺中工作者的匿名性質,導致它和傳統外包任務的處理方式有很大的不同,準確并高效解決眾包質量問題具有重要意義。
現有眾包模式中,在獲得數據標定任務的標記數據后,主要通過投票法的方式來推斷最終結果,這種方案能夠在大多數人掌握正確結果的條件下得到客觀描述,但是沒有考慮到少數人可能掌握正確結果的情況,而且這種情況是會時常出現的。
發明內容
本發明的目的在于克服現有技術存在的上述缺陷,提供一種眾包模式下的標簽數據統計推斷方法,通過使用拉格朗日對偶變換,將標注員水平以及標定任務的復雜程度納入約束條件。
為實現上述目的,本發明的技術方案如下:
一種眾包模式下的標簽數據統計推斷方法,其特征在于,包括以下步驟:
Step1:建立眾包數據的統一形式,記標注員數量為m個,客觀對象的數量為n個,類別的數量為c個,并記樣本中標注員i將客觀對象j劃分至類別k的頻率為zijk,zijk所遵循的分布記為πij,分布πij的概率記為πijk,πijk的含義為實際數據中標注員i將客觀對象j劃分至第k類的概率,i=1~m,j=1~n,k=1~c;
Step2:構建標注員對客觀對象產生類別標簽的模型,以yjl表示對象j在類別l中的概率,l=1~c,以下步驟的目的就是求解yjl:
Step2.1:極大熵模型,首先極大化目標函數以確定用戶打標簽的概率分布:
Step2.2:對極大化熵再進行極小化,推斷yjl的優化模型為:
Step3:運用拉格朗日變換方法,引入拉格朗日乘子λij,τjk,σikl,構造拉格朗日函數為
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳莫比嗨客樹莓派智能機器人有限公司,未經深圳莫比嗨客樹莓派智能機器人有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810975033.6/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





