[發明專利]基于網絡嵌入的眾包垃圾工人檢測方法、系統及存儲介質有效
| 申請號: | 202010083860.1 | 申請日: | 2020-02-10 |
| 公開(公告)號: | CN111292062B | 公開(公告)日: | 2023-04-25 |
| 發明(設計)人: | 鄺礫;張歡;施如意 | 申請(專利權)人: | 中南大學 |
| 主分類號: | G06Q10/0631 | 分類號: | G06Q10/0631;G06F18/214;G06F18/2411;G06N3/084 |
| 代理公司: | 長沙正奇專利事務所有限責任公司 43113 | 代理人: | 馬強;王娟 |
| 地址: | 410083 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 網絡 嵌入 垃圾 工人 檢測 方法 系統 存儲 介質 | ||
本發明公開了一種基于網絡嵌入的眾包垃圾工人檢測方法、系統及存儲介質,基于工人的答案通過率構建了一個以工人和請求者為節點的眾包異構網絡;為眾包異構網絡中中心度不同的節點生成不同數目的不定長游走路徑;對生成的路徑進行正采樣和負采樣得到表示學習模型的訓練數據;根據得到的數據訓練HIN2Vec模型,以學習眾包異構網絡中工人節點的表示向量;基于工人向量利用OneClassSVM算法進行工人分類,以檢測不同勾結模式的垃圾工人。本發明的檢測方法能夠高效檢測不同勾結模式的眾包垃圾工人。
技術領域
本發明涉及機器學習領域,特別是一種基于網絡嵌入的眾包垃圾工人檢測方法、系統及存儲介質。
背景技術
眾包是一種允許任務請求者將工作任務外包給非特定的大型網絡大眾,吸引大規模在線智慧群體(即工人)參與任務,快速解決問題的模式。眾包平臺中的垃圾工人是指本著最大化經濟收益的目的,對請求者發布的任務提交大量快速隨機的或重復的答案的一類工人。
在Amazon?Mechanical?Turk,CrowdFlower等眾包平臺,任務需求者(請求者)只需以小額報酬即可吸引大規模在線智慧群體(工人)參與任務,快速解決問題。這種經濟且快捷的求解問題的新模式,已被廣泛應用于解決情感分析、圖像標注、實體識別等數據分析任務。然而眾包平臺的開放性以及經濟獎勵制度,使得平臺中垃圾工人的比重不斷增加。這些垃圾工人本著最大化經濟收益的目的,會對請求者發布的任務提交大量快速隨機的或重復的答案,這種行為一方面會造成數據污染,降低眾包任務質量;另一方面會打消其他用戶積極性,甚至造成平臺失敗。因此有效識別眾包平臺的垃圾工人變得尤為關鍵,而垃圾工人檢測也已成為眾包領域的一個熱點問題。
為了抵御垃圾工人的威脅,研究者們已經提出了基于聲譽的檢測方法和基于驗證的檢測方法。基于聲譽的方法根據工人在以往任務中的表現來決定其是否有資格參與任務,基于驗證的方法通過設置測試問題來檢測工人是否誠實,并組織審查者檢查工人提交的答案以發現垃圾工人。然而基于聲譽的方法難以檢測出勾結同伙提升聲譽的垃圾工人,基于驗證的方法在面對大量通過勾結具有“良好”聲譽的垃圾工人時,需要耗費時間金錢進行驗證。而對于垃圾工人的勾結行為,研究者們有的考慮了工人之間的勾結,有的考慮了工人與請求者之間的勾結,并針對不同的勾結模式提出了各自的勾結檢測方法。然而,現今還沒有一種綜合考慮以上兩種、甚至更多勾結模式的檢測方法,并且現有的勾結檢測方法僅對有限類型的眾包任務有效,這難以適應眾包平臺任務多類型的問題場景。
發明內容
本發明所要解決的技術問題是,針對現有技術不足,提供一種基于網絡嵌入的眾包垃圾工人檢測方法、系統及存儲介質,高效檢測不同勾結模式的垃圾工人。
為解決上述技術問題,本發明所采用的技術方案是:一種基于網絡嵌入的眾包垃圾工人檢測方法,包括以下步驟:
1)根據原始的工人,請求者,答案通過率形式的輸入數據構建一個由請求者節點、工人節點以及兩種類型的邊所組成的眾包異構網絡CHN;
2)為眾包異構網絡CHN中不同中心度的節點生成不同數目的不定長游走路徑;
3)對生成的不定長游走路徑進行正采樣和負采樣,生成初始節點,目標節點,元路徑,標簽形式的樣本,以此作為CHN表示學習的訓練集;
4)將訓練集中每條樣本視為一個預測任務,學習CHN中工人節點的表示向量;
5)將表示學習得到的工人節點的表示向量作為OneClassSVM算法的輸入,進行工人分類以檢測垃圾工人。
步驟1)的實現過程包括:
1)設定答案通過率閾值ε∈[0,1];
2)初始化眾包異構網絡CHN,使得該網絡包含工人W和請求者R兩種類型的節點,以及高可信邊WR1和低可信邊WR2兩種類型的邊;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中南大學,未經中南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010083860.1/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





