[發(fā)明專利]融合文本和傳播結(jié)構(gòu)的早期謠言檢測方法有效
| 申請?zhí)枺?/td> | 202011245311.6 | 申請日: | 2020-11-10 |
| 公開(公告)號: | CN112329444B | 公開(公告)日: | 2022-09-02 |
| 發(fā)明(設(shè)計(jì))人: | 陳晨;屠克非;袁曉潔 | 申請(專利權(quán))人: | 南開大學(xué) |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F16/35;G06N3/04;G06N3/08;G06Q50/00 |
| 代理公司: | 天津耀達(dá)律師事務(wù)所 12223 | 代理人: | 張耀 |
| 地址: | 300071*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 融合 文本 傳播 結(jié)構(gòu) 早期 謠言 檢測 方法 | ||
融合傳播結(jié)構(gòu)的謠言檢測方法,涉及社交網(wǎng)絡(luò)數(shù)據(jù)檢測。利用新聞的傳播結(jié)構(gòu)和源文本作為輸入數(shù)據(jù),構(gòu)建基于深度學(xué)習(xí)的謠言檢測模型。本方法首先提出了一種用于學(xué)習(xí)謠言傳播結(jié)構(gòu)的圖嵌入方法,其能將新聞傳播過程中的傳播結(jié)構(gòu)信息嵌入到合適的隱空間上。本方法還提出了一個(gè)基于CNN模塊的雙分支謠言檢測模型,其包含兩個(gè)子分支,一個(gè)分支用于學(xué)習(xí)謠言的源文本的文本特征,另一個(gè)分支則用于檢測蘊(yùn)含在嵌入節(jié)點(diǎn)序列的傳播結(jié)構(gòu)特征。對于Weibo和Twitter的四個(gè)常見數(shù)據(jù)集,本方法能夠?qū)W習(xí)到謠言的傳播結(jié)構(gòu)特征,并將其和文本特征進(jìn)行融合。實(shí)驗(yàn)結(jié)果表明,本方法不僅擁有優(yōu)于目前已有的方法的檢測效果,還能夠在謠言傳播的早期就給出判斷。
技術(shù)領(lǐng)域
本發(fā)明屬于人工智能領(lǐng)域,具體涉及社交網(wǎng)絡(luò)數(shù)據(jù),對社交媒體中出現(xiàn)的謠言,提出了一種融合傳播結(jié)構(gòu)和文本的檢測方法。
背景技術(shù)
隨著社交網(wǎng)絡(luò)的普及,越來越多的用戶受到謠言帶來的負(fù)面影響。與此同時(shí),也有一些有心之人在社交網(wǎng)絡(luò)中傳播謠言用以達(dá)成特定的商業(yè)目的和政治目的。例如,許多產(chǎn)品為了增加自己的產(chǎn)品知名度,刻意購買水軍和網(wǎng)絡(luò)流量用以增加產(chǎn)品在用戶中的知名度。隨著謠言的傳播和泛濫,越來越多的用戶開始暴露在不可靠的信息之下,也給互聯(lián)網(wǎng)社區(qū)的運(yùn)營帶來了極大的挑戰(zhàn)。本方法意在融合謠言的文本和傳播結(jié)構(gòu)用以解決謠言的早期檢測問題。
早期謠言檢測的難點(diǎn)在于,在謠言傳播的早期,其傳播結(jié)構(gòu)的信息非常稀疏,并不足以為模型提供充足的信息用來判斷謠言的真實(shí)性。因此,本方法旨在解決謠言傳播的稀疏性問題,通過構(gòu)造合適的傳播結(jié)構(gòu)表示,將傳播結(jié)構(gòu)和謠言的文本信息相融合,進(jìn)而取得良好的謠言檢測效果。
近年來在謠言檢測方面有很多研究,研究重點(diǎn)是如何更好的提取謠言的文本特征和傳播結(jié)構(gòu)特征。特別地,由于傳播結(jié)構(gòu)特征的復(fù)雜性和稀疏性,針對其的建模方式受到越來越廣泛的關(guān)注,主要的建模方式包括序列建模、樹結(jié)構(gòu)建模、相鄰節(jié)點(diǎn)建模等等。隨著深度學(xué)習(xí)模型的廣泛應(yīng)用,提取和融合傳播結(jié)構(gòu)的深層次特征成為可能,深度學(xué)習(xí)方法在許多任務(wù)上都表現(xiàn)出良好的傳播結(jié)構(gòu)的特征抽取和融合能力。
然而,現(xiàn)有的謠言檢測方法著重于提高謠言檢測的準(zhǔn)確性。通常來說,這些模型可能需要等謠言傳播很長時(shí)間以后,才能得到充分的特征信息用以判斷該謠言的真實(shí)性。這一非實(shí)時(shí)特性使得模型不能夠在謠言傳播的早期階段對謠言予以判斷,也使得模型的使用者無法在早期獲得針對謠言的審核和治理依據(jù)。此外,針對謠言傳播結(jié)構(gòu)的建模也不充分,真實(shí)的謠言的傳播過程非常復(fù)雜,主流的方法往往將其建模為簡單的傳播序列。序列建模僅僅考慮了傳播過程的時(shí)序特性,忽略了傳播過程的結(jié)構(gòu)特性。另外,目前的方法著重關(guān)注融合單條新聞的傳播結(jié)構(gòu)和文本,其并沒有考慮到傳播結(jié)構(gòu)信息在早期的稀疏特性。綜上所述,融合傳播結(jié)構(gòu)的早期謠言檢測是一項(xiàng)創(chuàng)新的研究問題,具有重要的研究意義和應(yīng)用價(jià)值。
發(fā)明內(nèi)容
本發(fā)明的目的是解決現(xiàn)有的謠言檢測方法無法充分利用傳播結(jié)構(gòu)的特征的問題,提出一種融合傳播結(jié)構(gòu)和文本的早期謠言方法,本發(fā)明利用基于深度學(xué)習(xí)的方法,創(chuàng)新地提出了一種建模、融合傳播結(jié)構(gòu)特征的方法,提高了謠言檢測的效果,特別是在早期謠言檢測任務(wù)上的效果。
本發(fā)明的技術(shù)方案
融合文本和傳播結(jié)構(gòu)的早期謠言檢測方法,該方法的詳細(xì)內(nèi)容如下:
第1、數(shù)據(jù)集的預(yù)處理
在數(shù)據(jù)的預(yù)處理階段,收集新聞的訓(xùn)練集樣本,其包括新聞的源文本以及用戶之間的轉(zhuǎn)發(fā)關(guān)系。在完成數(shù)據(jù)集的收集工作完成以后,我們將對數(shù)據(jù)集進(jìn)行預(yù)處理用以得到新聞的傳播結(jié)構(gòu)的特征表示。謠言的每個(gè)樣本包括三部分:新聞的源文本si,新聞的傳播樹Ti和新聞的標(biāo)注標(biāo)簽li。
第1.1、傳播樹的建模
謠言的傳播樹結(jié)構(gòu)是一個(gè)描述傳播結(jié)構(gòu)的良好建模方式。其既可以建模出新聞傳播過程中的時(shí)序上的先后關(guān)系,也可以建模傳播過程中的結(jié)構(gòu)關(guān)系。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南開大學(xué),未經(jīng)南開大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011245311.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 卡片結(jié)構(gòu)、插座結(jié)構(gòu)及其組合結(jié)構(gòu)
- 鋼結(jié)構(gòu)平臺結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 單元結(jié)構(gòu)、結(jié)構(gòu)部件和夾層結(jié)構(gòu)
- 鋼結(jié)構(gòu)扶梯結(jié)構(gòu)
- 鋼結(jié)構(gòu)隔墻結(jié)構(gòu)
- 鋼結(jié)構(gòu)連接結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)





