[發明專利]一種基于多表示學習的跨領域虛假新聞檢測方法在審
| 申請號: | 202111124543.0 | 申請日: | 2021-09-24 |
| 公開(公告)號: | CN113901810A | 公開(公告)日: | 2022-01-07 |
| 發明(設計)人: | 曹娟;王彥焱;徐朝喜;謝添;李錦濤 | 申請(專利權)人: | 杭州中科睿鑒科技有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F16/906;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州九洲專利事務所有限公司 33101 | 代理人: | 沈敏強 |
| 地址: | 310015 浙江省杭*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 表示 學習 領域 虛假 新聞 檢測 方法 | ||
本發明涉及一種基于多表示學習的跨領域虛假新聞檢測方法。本發明的技術方案為一種基于多表示學習的跨領域虛假新聞檢測方法,獲取待檢測的新聞文本和該新聞文本所屬的領域標簽;將新聞文本輸入BERT模型,提取新聞文本的詞嵌入向量;將新聞文本的詞嵌入向量和領域標簽輸入基于多表示學習的領域共享特征生成器,得到融合的領域共享特征表達;將融合的領域共享特征表達輸入虛假新聞分類器,輸出新聞真假分類的概率值結果。本發明適用于虛假新聞檢測領域。本發明通過領域門模型學習領域之間的關系,根據不同的領域之間的關系動態調節不同領域對于不同的領域共享特征的權重,降低了領域共享知識的學習難度,提高了跨領域的虛假新聞檢測能力。
技術領域
本發明涉及一種基于多表示學習的跨領域虛假新聞檢測方法。適用于虛假新聞檢測領域。
背景技術
隨著互聯網的發展,社交媒體成為人們獲取資訊的重要渠道。然而,事物的發展總是有兩面性,社交媒體在給人們帶來便利的同時,也為虛假新聞廣泛、快速的傳播提供了渠道。虛假新聞的泛濫會對社會的經濟、政治等方面產生嚴重危害。虛假新聞涉及諸多領域(例如軍事、政治等),不同領域數據分布之間存在差異,如何進行跨領域的虛假新聞檢測成為了當前亟待解決的重要問題。
虛假新聞定義為:故意捏造并可被證實為假的消息。隨著網絡媒體的富媒體化,新聞的形式也變得多種多樣,新聞中可以包含新聞文本、圖片、視頻等多模態的信息。
虛假新聞檢測方法按照輸入類型的不同可以分為基于新聞內容的方法和基于社交上下文的方法?;谛侣剝热莸奶摷傩侣剻z測方法通常通過挖掘虛假(或真實)新聞內容各自的模式,來區分真實和虛假新聞?;谏缃簧舷挛牡奶摷傩侣剻z測方法聚焦于利用新聞社交媒體傳播過程中留下的各種信息進行檢測,除去新聞內容本身,這些信息還包括傳播圖結構、轉發內容、評論內容以及參與用戶信息等。
目前的跨領域的虛假新聞檢測方法都是基于領域自適應的方法,將所有領域的分布進行對齊,進而提取出所有領域的領域共享特征,來進行虛假新聞檢測。領域共享特征可以看做是領域間通用的知識,可以在所有領域中提升虛假新聞檢測的能力。
基于領域自適應的領域共享特征提取方法將所有領域在同一個特征空間下進行強制對齊,進而生成一個領域共享特征,這種方法的缺陷是:(1)不同領域之間的共享知識是不同的,有些領域比較相似,能夠提取出可遷移的共享特征,而有些領域之間差異性較大,強行提取其中的共享知識可能會造成負遷移現象,造成模型性能的下降。(2)隨著領域數量的增加,領域對齊會越來越困難,領域共享的知識也會越來越難以學習,強行提取所有領域的共享特征效果提升不顯著。
發明內容
本發明要解決的技術問題是:針對上述存在的問題,提供一種基于多表示學習的跨領域虛假新聞檢測方法。
本發明所采用的技術方案是:一種基于多表示學習的跨領域虛假新聞檢測方法,其特征在于:
獲取待檢測的新聞文本和該新聞文本所屬的領域標簽;
將新聞文本輸入BERT模型,提取新聞文本的詞嵌入向量;
將新聞文本的詞嵌入向量和領域標簽輸入基于多表示學習的領域共享特征生成器,得到融合的領域共享特征表達;
將融合的領域共享特征表達輸入虛假新聞分類器,輸出新聞真假分類的概率值結果。
所述將新聞文本的詞嵌入向量和領域標簽輸入基于多表示學習的領域共享特征生成器得到融合的領域共享特征表達,包括:
將新聞文本的詞嵌入向量輸入多個領域共享專家,生成多個不同的領域共享特征,每個領域共享特征關注領域共享知識的一個方面;
將領域標簽輸入經訓練的領域門模型,得到各領域共享特征的權重;
基于多個領域共享專家生成的多個領域共享特征和所述領域門模型得到的相應領域共享特征權重進行加權求和,得到融合的領域共享特征表達。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州中科睿鑒科技有限公司,未經杭州中科睿鑒科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111124543.0/2.html,轉載請聲明來源鉆瓜專利網。





