[發明專利]一種基于樸素貝葉斯模型的謠言識別方法有效
| 申請號: | 201811200240.0 | 申請日: | 2018-10-16 |
| 公開(公告)號: | CN109558483B | 公開(公告)日: | 2021-06-18 |
| 發明(設計)人: | 李大慶;鐘季龍 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62;G06Q50/00 |
| 代理公司: | 北京慧泉知識產權代理有限公司 11232 | 代理人: | 王順榮;唐愛華 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 樸素 貝葉斯 模型 謠言 識別 方法 | ||
本發明提供一種基于樸素貝葉斯的謠言識別方法,步驟如下:1,采集樣本數據,構建消息轉發網絡;2,統計識別謠言轉發網絡的活躍用戶;3,確定謠言識別的條件概率計算公式;通過以上步驟,本發明綜合考慮了參與多個謠言轉發的活躍用戶節點,基于樸素貝葉斯模型,降低存儲空間要求的同時提高了識別準確度和計算求解效率,解決了社交網絡中謠言識別的問題,具有推廣應用價值。
技術領域
本發明提出一種基于樸素貝葉斯模型的謠言識別方法,根據社交網絡中謠言傳播的活躍用戶特征,輔助識別謠言等虛假消息與不實言論,屬于機器學習與網絡科學交叉領域。
背景技術
隨著互聯網的高速發展,微博、微信等社交網絡媒體普及程度也越來越高。據新浪微博發布的2018年Q1季度財報顯示,截至2018年3月,微博月活躍用戶已突破4億;據媒體報道,微信截至2018年,全球用戶總人數超過10億。消息在網絡中傳播的同時,往往摻雜著各種真實的新聞消息和虛假的謠言信息。由于消息在網絡上具有傳播速度快、影響范圍廣等特點,謠言對于社會生活的影響也越來越深遠。尤其是在具有重大影響的事件如自然災害發生后,謠言消息更容易在社交網絡中產生和傳播,給社會日常生活并帶來諸多負面影響。例如2011年日本福島核電站在地震后發生核泄漏事件,就有食用加碘鹽可以預防核輻射的謠言產生并廣為傳播,導致搶購食鹽的群體行為發生,極大擾亂了市場供求關系;再如2014年馬來西亞航空MH370航班神秘失蹤后,別有用心的人利用外界對航空知識的認識不足,杜撰了多種不同的陰謀論謠言,引發不必要的猜疑和恐慌。因此,根據消息特征進行消息的真假識別對于預防與控制謠言傳播具有重要意義。
謠言通常是指在公開渠道對公眾感興趣事務或問題的未經證實的一種解釋或闡述。謠言識別技術上屬于自然語言處理問題,其本質上是一個分類問題,即把消息分類為謠言和事實。謠言按其內容通常可以分為以下四類:1.純屬虛構,即消息本身子虛烏有;2.夸大事實真相,吸引公眾瀏覽;3.捏造事實細節,真假摻半;4.“舊酒裝新瓶”類的消息,即把過去發生的事捏造為當前事件或問題,引發公眾關注。近年來,隨著機器學習成為研究熱點,研究者提出了多種基于不同特征提取如根據文本內容、元素特征、行為特征以及用戶屬性信息等進行分類的方法,如Boosting方法、支持向量機、KNN算法等。另一些研究考慮了不同拓撲結構下消息的傳播特征和時序特征識別預測謠言,典型的包括利用疾病傳播模型刻畫謠言傳播,以進一步理解網絡結構對謠言傳播的影響。然而,許多考慮謠言傳播特性的研究將謠言傳播簡化為一個單一的過程,忽略了不同謠言可能是由同一組用戶創建或轉發,這就意味著在不同的謠言轉發網絡中可以找到一些同時參與多個謠言轉發的活躍用戶。從這一特點出發,考察消息所形成的轉發網絡,利用網絡中不同的活躍用戶這一信息判斷一條消息是謠言的概率大小。
早在1998年研究者就首次把樸素貝葉斯模型應用在垃圾郵件過濾中,算法表現出了良好的分類效果。樸素貝葉斯模型是一種監督學習模型,建立在條件獨立性假設的基礎上,該方法具有分類效果好、訓練效率高以及存儲空間要求小等優勢。由于社交網絡樣本空間量較大,為解決這樣的問題,受上述啟發,考慮將樸素貝葉斯模型應用到社交網絡的謠言識別問題中,以在提高識別準確度的同時降低存儲空間要求。其主要思路是首先構建消息轉發網絡,從樣本中學習訓練謠言轉發的活躍用戶,進一步依據樸素貝葉斯條件獨立性假設,簡化貝葉斯概率計算公式,利用轉發謠言的活躍用戶設計一種基于樸素貝葉斯模型的謠言識別方法。
發明內容
(一)發明的目的
本發明目的是提供一種基于樸素貝葉斯模型的謠言識別方法。該方法在條件獨立性假設基礎上,從活躍用戶角度考慮謠言識別問題,為判定消息真假提供技術手段。
(二)技術方案
本發明是一種基于樸素貝葉斯模型的謠言識別方法,其具體實施步驟如下:
步驟1,采集樣本數據,構建消息轉發網絡
首先采集樣本數據,用于學習訓練,根據轉發消息的用戶,建立消息轉發網絡,為進一步識別活躍用戶做好數據準備,包括2個子步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811200240.0/2.html,轉載請聲明來源鉆瓜專利網。





