[發明專利]融合文本和傳播結構的早期謠言檢測方法有效
| 申請號: | 202011245311.6 | 申請日: | 2020-11-10 |
| 公開(公告)號: | CN112329444B | 公開(公告)日: | 2022-09-02 |
| 發明(設計)人: | 陳晨;屠克非;袁曉潔 | 申請(專利權)人: | 南開大學 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F16/35;G06N3/04;G06N3/08;G06Q50/00 |
| 代理公司: | 天津耀達律師事務所 12223 | 代理人: | 張耀 |
| 地址: | 300071*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 融合 文本 傳播 結構 早期 謠言 檢測 方法 | ||
1.融合文本和傳播結構的早期謠言檢測方法,其特征是:將新聞的傳播結構建模為傳播樹,構造了聯合圖用以得到謠言傳播結構的嵌入,并用兩個雙分支的CNN子模塊用以融合傳播結構和新聞源文本的語言特征,該方法具體步驟如下:
第1、數據集的預處理
在數據的預處理階段,收集新聞的訓練集樣本,其包括新聞的源文本以及用戶之間的轉發關系,在完成數據集的收集工作完成以后,將對數據集進行預處理用以得到新聞的傳播結構的特征表示;謠言的每個樣本包括三部分:新聞的源文本si,新聞的傳播樹Ti和新聞的標注標簽li;
第2、獲得新聞源文本和傳播結構的向量表示
模型的輸入分成兩部分:一部分是新聞源文本的向量表示,另一部分則是代表著新聞傳播結構的節點序列的向量表示;向量表示方法既利用序列表現了傳播結構的序列特性,也利用聯合圖的嵌入表達了傳播結構的結構特征;
第3、訓練融合傳播結構和文本信息的謠言檢測模型
謠言檢測模型使用雙分支結構,每個結構都是由多個卷積神經網絡過濾器組成,雙分支的輸出由一個連接函數(concatenate)所拼接,并作為一個Softmax層的輸入,文本分支輸入的是新聞源文本的向量表示Vi,節點分支輸入的是新聞傳播結構的向量表示Ni,給定(Vi,Ni),模型得到預測的類別li;
第1步包括:
第1.1、傳播樹的建模
謠言的傳播結構的原始形式是一張表,其中的每個元素是兩個用戶之間的轉發關系,每個傳播關系可以看作是一條有向邊,其方向與新聞的轉發的方向相同,如果不同的邊整合起來,其會形成一個樹結構,這就是謠言的傳播樹結構;
其中傳播樹的具體定義如下:
令T<V,E>為一個新聞的傳播樹,其中V是節點的集合,其中的每個節點都是參與到新聞傳播的用戶,E是邊的集合,其中的每個元素代表著任意兩個用戶的一次轉發行為,其中對于任意節點vi屬于V,vi=(ui,ci,ti),其中ui代表著第i個用戶,ci代表著這一用戶的轉發的評論內容,ti表示這一次轉發所發生的時刻;
第1.2、聯合圖的生成
為了更利用謠言的傳播結構特征,特別是不同傳播結構之間的相似之處,訓練集中所有新聞的傳播樹都被合并到了一張聯合圖上去;
聯合圖的具體定義如下:
聯合圖Gu=<Vu,Eu>是生成自一個傳播樹的集合{Ti=<Vi,Ei>},其中Vu=∪iVi是傳播樹中所有點集合的并集,Eu=∪iEi是傳播樹集合中所有邊集合的并集;
第1.3、聯合圖的嵌入
被合并之后形成的聯合圖既包含了單個傳播樹的傳播結構信息,也包含了傳播樹的之間的同構結構信息,基于隨機游走的圖嵌入模型可以得到聯合圖的每個節點的向量表示,這一獲得向量表示的過程可以看作是針對聯合圖的圖嵌入,針對聯合圖構造了兩種圖嵌入方法:一種是針對帶權邊的圖嵌入,另一種是針對無權邊的圖嵌入。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南開大學,未經南開大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011245311.6/1.html,轉載請聲明來源鉆瓜專利網。





