[發(fā)明專利]一種基于預(yù)訓(xùn)練語言模型的網(wǎng)絡(luò)謠言檢測(cè)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201911379298.0 | 申請(qǐng)日: | 2019-12-27 |
| 公開(公告)號(hào): | CN111144131B | 公開(公告)日: | 2021-04-30 |
| 發(fā)明(設(shè)計(jì))人: | 張勇東;毛震東;鄧旭冉;付哲仁 | 申請(qǐng)(專利權(quán))人: | 北京中科研究院;中國科學(xué)技術(shù)大學(xué) |
| 主分類號(hào): | G06F40/30 | 分類號(hào): | G06F40/30;G06F40/289;G06F16/215;G06F16/9536;G06Q50/00;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京凱特來知識(shí)產(chǎn)權(quán)代理有限公司 11260 | 代理人: | 鄭立明;鄭哲 |
| 地址: | 100193 北京*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 訓(xùn)練 語言 模型 網(wǎng)絡(luò) 謠言 檢測(cè) 方法 | ||
1.一種基于預(yù)訓(xùn)練語言模型的網(wǎng)絡(luò)謠言檢測(cè)方法,其特征在于,包括:
獲取待檢測(cè)的源文本以及多個(gè)其他用戶的轉(zhuǎn)發(fā)文本;
對(duì)源文本以及多個(gè)其他用戶的轉(zhuǎn)發(fā)文本各自進(jìn)行預(yù)處理,將預(yù)處理后的轉(zhuǎn)發(fā)文本連接,得到轉(zhuǎn)發(fā)文本的集合;
將預(yù)處理后的源文本與轉(zhuǎn)發(fā)文本的集合看作一對(duì)句子,構(gòu)造成線性序列并輸入至預(yù)訓(xùn)練語言模型中,通過預(yù)訓(xùn)練語言模型挖掘出源文本與轉(zhuǎn)發(fā)文本的語義關(guān)系,并經(jīng)過全連接層與softmax函數(shù)得到源文本為謠言與非謠言的概率;
其中,源文本記為S,任一轉(zhuǎn)發(fā)文本記為mi,預(yù)處理函數(shù)記為fp(x),則預(yù)處理后的文本記為:
S′=fp(S)
mi′=fp(mi)
其中,mi′表示預(yù)處理后的轉(zhuǎn)發(fā)文本,截取每條源文本的按時(shí)間排序的前L條轉(zhuǎn)發(fā)文本,之后的全部舍棄,i=1,2,...,L;
將預(yù)處理后的源文本S′與轉(zhuǎn)發(fā)文本的集合M′看作一對(duì)句子TextA與Text B:
TextA=S′
Text B=M′
在TextA與Text B之間加上分隔符,前后加上標(biāo)識(shí)符,獲得輸入進(jìn)預(yù)訓(xùn)練語言模型的線性序列:
Is=[CLS]TextA[SEP]Text B[SEP]
其中,TextA之前的[CLS]以及Text B之后的[SEP]均為標(biāo)識(shí)符,TextA與Text B之間的[SEP]為分隔符。
2.根據(jù)權(quán)利要求1所述的一種基于預(yù)訓(xùn)練語言模型的網(wǎng)絡(luò)謠言檢測(cè)方法,其特征在于,預(yù)處理包括如下處理方式中的一種或多種:繁體轉(zhuǎn)換、去除統(tǒng)一資源定位符、刪除表情符號(hào)、刪除英文字符、刪除特殊字符、刪除空字符。
3.根據(jù)權(quán)利要求1所述的一種基于預(yù)訓(xùn)練語言模型的網(wǎng)絡(luò)謠言檢測(cè)方法,其特征在于,所述將預(yù)處理后的轉(zhuǎn)發(fā)文本連接的方式包括:
其中,L表示轉(zhuǎn)發(fā)文本數(shù)量,M′為轉(zhuǎn)發(fā)文本的集合,句號(hào)為連接符號(hào),mi′表示預(yù)處理后的轉(zhuǎn)發(fā)文本。
4.根據(jù)權(quán)利要求1所述的一種基于預(yù)訓(xùn)練語言模型的網(wǎng)絡(luò)謠言檢測(cè)方法,其特征在于,通過預(yù)訓(xùn)練語言模型的挖掘出源文本與轉(zhuǎn)發(fā)文本的語義關(guān)系,并經(jīng)過全連接層與softmax函數(shù)得到源文本為謠言與非謠言的概率表示為:
Ih=FBERT(Is)
z=fFC layers(Ih)
Pr=softmax(z)
其中,Is表示線性序列,F(xiàn)BERT()表示預(yù)訓(xùn)練語言模型處理函數(shù),Ih表示預(yù)訓(xùn)練語言模型的輸出結(jié)果;fFC layers()表示全連接層處理函數(shù),z表示全連接層的輸出結(jié)果;Pr表示通過softmax函數(shù)得到的源文本為謠言與非謠言的概率。
5.根據(jù)權(quán)利要求1所述的一種基于預(yù)訓(xùn)練語言模型的網(wǎng)絡(luò)謠言檢測(cè)方法,其特征在于,將預(yù)訓(xùn)練語言模型與全連接層看作一個(gè)網(wǎng)絡(luò)模型進(jìn)行統(tǒng)一訓(xùn)練;訓(xùn)練階段,構(gòu)建二元交叉熵?fù)p失函數(shù)LCE作為損失函數(shù),再利用梯度反向傳播算法,獲得網(wǎng)絡(luò)模型每一層參數(shù)的梯度信息,應(yīng)用優(yōu)化器,對(duì)網(wǎng)絡(luò)模型進(jìn)行優(yōu)化,使得損失函數(shù)最小化,從而更新網(wǎng)絡(luò)模型網(wǎng)絡(luò)的參數(shù);
二元交叉熵?fù)p失函數(shù)LCE表示為:
其中,U為訓(xùn)練樣本數(shù)目,yi表示第i個(gè)樣本的檢測(cè)結(jié)果,yi=1表示第i個(gè)樣本為謠言,yi=0表示第i個(gè)樣本為非謠言,Pr(yi)表示yi對(duì)應(yīng)的概率。
6.根據(jù)權(quán)利要求1所述的一種基于預(yù)訓(xùn)練語言模型的網(wǎng)絡(luò)謠言檢測(cè)方法,其特征在于,所述訓(xùn)練語言模型包括:BERT模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京中科研究院;中國科學(xué)技術(shù)大學(xué),未經(jīng)北京中科研究院;中國科學(xué)技術(shù)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911379298.0/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 自動(dòng)檢測(cè)文件中搭配錯(cuò)誤的系統(tǒng)和方法
- 網(wǎng)絡(luò)連接裝置及網(wǎng)絡(luò)連接裝置的語言環(huán)境設(shè)定方法
- 一種口語評(píng)測(cè)方法及裝置
- 一種語言設(shè)置方法及移動(dòng)終端
- 一種語言文本加載方法和裝置
- 一種語言交流人工智能系統(tǒng)及其語言處理方法
- 語言序列標(biāo)注方法、裝置存儲(chǔ)介質(zhì)及計(jì)算機(jī)設(shè)備
- 一種基于語言包實(shí)現(xiàn)繼電保護(hù)裝置多語言版本方法及裝置
- 一種應(yīng)用軟件的多語言核對(duì)方法及系統(tǒng)
- 多語言字幕顯示方法、裝置、終端設(shè)備及存儲(chǔ)介質(zhì)





