[發明專利]推文級社會媒體謠言檢測方法有效
| 申請號: | 201911044320.6 | 申請日: | 2019-10-30 |
| 公開(公告)號: | CN110909125B | 公開(公告)日: | 2022-11-15 |
| 發明(設計)人: | 劉宇威;饒洋輝 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/117;G06F40/289;G06K9/62;G06N3/04 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 王曉玲 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 推文級 社會 媒體 謠言 檢測 方法 | ||
本發明涉及一種推文級社會媒體謠言檢測方法。本發明直接從事件的推文開始建模,從每條推文的字開始提取特征。相比于基于手工特征的模型,本發明能夠自動的提取從具體到抽象的特征,減少了人工介入,使用起來更方便。同時因為可以自動得到客觀的且有針對性的特征,模型可以更好的應用于社會媒體這種復雜的情景中。相比于GRU和CNN模型,本發明可以盡可能緩解因為不規范的網絡用語對謠言事件進行檢測的干擾。本發明通過利用事件熱度的變化來劃分不同的生命周期,使得每個生命周期更具有可解釋性,同時每個生命周期內的推文更具有一致性。本發明在對社會媒體的謠言事件檢測中,取得了更高的準確率,并且可以在事件發展更早的階段檢測出謠言事件。
技術領域
本發明屬于機器學習中的深度學習和自然語言處理領域,更具體地,涉及一種推文級社會媒體謠言檢測方法。
背景技術
心理學、社會學和傳播學界通常定義謠言為一段聲明或者表述是沒有被證實的或者是故意錯誤的。因此在這種情況下,有效并且快速得在社會媒體中鑒別謠言是一個很重要的任務。
在之前的相關研究工作中,學者們提出了很多方法來檢測單獨一條推文是否是謠言。一條推文通常僅僅具有較少的上下文信息,又因為謠言通常可以采用與非謠言相同的方法來陳述,所以對推文做謠言檢測面臨著信息量不夠的問題。同時,通常網絡謠言會在社會媒體上被大量傳播形成一個事件,因此對事件的謠言檢測會比對推文的謠言檢測更具有實用性。此外,事件具有更大的上下文以及時序特征。早期對事件的謠言檢測都是基于人工定義的特征結合傳統的分類器。手工特征包括基于內容的特征、基于用戶的特征以及基于傳播的特征。還有一些更精巧的特征包括用戶之間的相互反饋,事件在不同生命周期中的特征變化,表現出對事件表述有所懷疑的信號詞以及用戶群體內部對于事件表達出了有爭議的看法。
早期的基于手工特征的方法,因為僅僅只能依賴于很有限的上下文信息,因此不能夠利用到更有效的抽象特征。同時,人工定義的特征會因為不夠客觀而帶來一定的傾向性。所以這類基于手工特征的方法最終不能很好的應用于社會媒體這種復雜的情況。對于基于GRU和CNN的深度學習謠言事件監測的方法,他們都將事件看作是推文的序列,通過在時間順序上采用相同的時間間隔進行劃分從而得到事件的多個生命周期。然而這些模型存在一些缺陷。第一點,GRU這種基于循環神經網絡的深度學習模型會傾向于更多關注最后的輸入,然而沒有證據表明最后的幾個生命周期會對謠言事件監測更有幫助。第二點,社會媒體中用戶使用的語言不規范,存在很多網絡新詞和錯誤的表達,因此傳統的分詞方法都很難準確的劃分每個詞。同時,他們使用詞頻-逆向文件頻率或者段落向量的無監督方法來構建生命周期向量,使得他們的模型不能夠通過有監督的學習來修正分詞錯誤帶來的影響,從而使得他們的模型不能進一步提升謠言事件檢測的準確率。第三點,他們使用相同的時間間隔來劃分事件的生命周期,這樣的建模方法雖然簡單但是沒有可解釋性,不能保證每個周期內的推文具有利用謠言檢測的一致性。
發明內容
本發明為克服上述現有技術中的缺陷,提供一種推文級社會媒體謠言檢測方法,在對社會媒體的謠言事件檢測中,取得了更高的準確率,并且可以在事件發展更早的階段檢測出謠言事件。
為解決上述技術問題,本發明采用的技術方案是:一種推文級社會媒體謠言檢測方法,包括以下步驟:
S1.收集社會媒體平臺上的推文,并且以轉發、評論將相關推文組成一個事件,并且按照時間戳將推文排序,然后將推文文本進行清洗;利用辟謠平臺的信息給事件打上對應的標簽;
S2.不對推文進行分詞,直接利用word2vec中的CBOW方法對推文中的字進行訓練,得到每個字的向量表達;
S3.使用天作為時間單位,表示出事件在每一天中的推文個數;橫坐標x為天,縱坐標y為當天的推文個數,即事件在當天的熱度;利用斷點檢測的算法,即分段線性回歸將事件劃分為多個生命周期,此時每個生命周期代表事件發展的趨勢;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911044320.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種隔音建筑裝飾材料
- 下一篇:一種調光LED驅動器





