[發明專利]一種基于派系過濾的意見垃圾用戶群檢測方法在審
| 申請號: | 201811083188.5 | 申請日: | 2018-09-17 |
| 公開(公告)號: | CN109408634A | 公開(公告)日: | 2019-03-01 |
| 發明(設計)人: | 徐光俠;胡夢瀟;蔣鵬;吳佳健;馬創;劉俊 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06Q30/02 |
| 代理公司: | 重慶市恒信知識產權代理有限公司 50102 | 代理人: | 李金蓉 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用戶群 垃圾 過濾 垃圾分數 檢測 投影 評論 大規模數據集 標記數據 垃圾檢測 評論數據 人工標記 二分圖 基于群 無監督 建模 群組 | ||
本發明請求保護一種基于派系過濾的意見垃圾用戶群檢測方法,涉及生成候選意見垃圾用戶群和排名候選意見垃圾用戶群兩個部分。因為意見垃圾檢測領域普遍缺乏標記數據,且人工標記在大規模數據集上不可行,所以本方法采用一種完全無監督的方法來檢測意見垃圾用戶群。首先將評論數據建模為評論者?產品二分圖,在此基礎上產生評論者投影,基于派系過濾方法找到評論者投影中的候選意見垃圾用戶群;接著,采用基于個人和基于群組的垃圾指標得到每個候選意見垃圾用戶群的垃圾分數,利用垃圾分數對候選意見垃圾用戶群進行排名,排名越靠前的群組可疑性越大。
技術領域
本發明屬于數據挖掘與知識發現領域,涉及在線評論網站的垃圾用戶檢測技術,具體涉及一種基于派系過濾的意見垃圾用戶群檢測方法。
背景技術
Web2.0的出現使人們由單純的網絡信息接受者轉向信息貢獻和創造者。電子商務的發展促使在線用戶評論數量急劇增長,產品評論成為人們上網購物的重要參考信息。購買商品或消費前,用戶往往會查看相關評論信息,如果評價積極,消費者的購買意向可能就會很大。因而隨著網絡應用的不斷深入,在線“網絡口碑”對商品銷量及商家名譽的影響力越來越大。據哈佛大學研究報道,美國最大的評論網站Yelp的產品評分每增長一星,將為該產品創造5-9%的收入。
令人震驚的是,Yelp網站中14-20%的評論都是虛假評論。某些組織或個人在各種利益的驅動下開始利用網絡信息監管的缺失,弄虛作假,制造虛假評論混淆視聽,誤導用戶。不良商家會雇傭一批人撰寫虛假好評以此來獲得消費者的好感,或撰寫虛假差評以此來詆毀對手的產品或服務。撰寫虛假評論的人被稱為意見垃圾用戶,意見垃圾用戶撰寫的虛假評論被稱為意見垃圾,受到虛假好評或虛假差評的產品被稱為目標產品。垃圾評論問題由來已久,現今的垃圾評論活動已經衍生為團伙作案。針對某一目標產品,一群評論者一起發布大量的好評以此來提升產品的聲譽,或者一起發布大量的差評以此來詆毀某產品,這樣的一群協同工作的評論者被稱為意見垃圾用戶群。如果某產品在發布初期就遭受到意見垃圾用戶群的攻擊,那么攻擊者將完全掌控消費者的情緒,這對產品的影響將是毀滅性的。清除網絡垃圾,凈化網絡環境,為人們提供一個真實可信的信息獲取平臺的需求日益迫切。因此,關于意見垃圾用戶群檢測問題的研究,已成為國內外研究的熱點,具有重要的應用價值。
在現有的意見垃圾檢測領域中,研究方向主要分3類:垃圾意見檢測、意見垃圾用戶檢測和意見垃圾用戶群檢測。目前國內外學者已經提出了很多方法用于檢測意見垃圾和意見垃圾用戶,但是關于意見垃圾用戶群的檢測問題一直沒有得到廣泛的研究。
目前國內外學者已經提出了很多方法用于垃圾意見檢測/意見垃圾用戶檢測,但大多數方法主要側重于開發純基于內容的分類器。這些方法背后的基本思想是通過分析評論內容來檢測垃圾意見/意見垃圾用戶。然而,這種純基于內容的分類器目前已經進入了一個瓶頸期,原因如下:(1)垃圾用戶可以輕松地操縱評論內容,避免檢測。例如,如果重復的文本評論被認為是垃圾意見,垃圾用戶可能會簡單地對內容進行更改。(2)純基于內容的分類器經常被設計為特定的應用領域,不能輕易應用于不同的領域。(3)因為大多數基于內容的分類器通常需要真實的標簽,但是帶標注的真實數據集通常很難獲得。過去常采用人工標注的方式來獲得帶標記的數據集,這種做法在大規模數據集上應用異常困難。
發明內容
為了克服上述現有技術中存在的缺陷,本發明的目的是提供一種基于派系過濾的意見垃圾用戶群檢測方法。派系過濾方法原本屬于社區發現領域,它能夠找到被檢測圖中的所有k極大團,即k連通圖。連通圖中任意兩點之間都有連邊,是一種關聯極其緊密的圖形。而意見垃圾用戶群因為相互協作,群組成員之間的關系會比正常群組成員之間的關系更加緊密,所以垃圾用戶群之間的緊密關系與k極大團很相似。并且,已經有研究表明評論用戶之間存在隱式社區。所以,本方法通過派系過濾方法找到評論網絡中個體之間關系緊密的子圖,這樣的子圖很可能是具有強烈可疑性的候選垃圾用戶群。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811083188.5/2.html,轉載請聲明來源鉆瓜專利網。





