[發明專利]引述句和辟謠模式句引導的“謠言-辟謠文章”匹配方法及系統有效
| 申請號: | 202110761419.9 | 申請日: | 2021-07-06 |
| 公開(公告)號: | CN113536760B | 公開(公告)日: | 2023-09-26 |
| 發明(設計)人: | 曹娟;盛強;張雪遙;鐘雷;謝添 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/30;G06F16/35;G06F18/23213;G06F18/214;G06N3/04;G06N3/084 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 11006 | 代理人: | 祁建國 |
| 地址: | 100080 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 引述 辟謠 模式 引導 謠言 文章 匹配 方法 系統 | ||
本發明提出一種引述句和辟謠模式句引導的“謠言?辟謠文章”匹配方法及系統。通過引導模型行為,使其更加關注辟謠文章中帶有“引述”和“辟謠模式”成分的句子,實現考慮到辟謠文章特點的“謠言?辟謠文章”匹配程度評分。具體地,本發明通過使用文字相似度指標精調神經網絡模型增強引述句的發現能力,通過引入模式向量增強辟謠模式句的發現能力,從而使模型關注到含有引述成分和辟謠模式的關鍵句子,過濾掉辟謠文章中大部分無關句子,最終實現高效準確的“謠言?辟謠文章”匹配。
技術領域
本發明涉及信息檢索領域,特別涉及一種基于引述句和模式句引導的“謠言-辟謠文章”匹配方法。
背景技術
目前,國內外應對網絡謠言的思路大致有三種:第一類是進行人工事實核查,如Snopes、騰訊新聞“較真”等,它們通過用戶主動提交或編輯整理收集需要進行澄清的謠言,聘請擁有專業知識或權威信息的個人或組織撰寫辟謠文章,之后針對用戶分發辟謠文章實現事實核查;第二類是開發自動檢測系統,國內外比較知名的有dEFEND系統、“AI識謠”系統等,它們一般通過主動收集網絡上的可疑新聞線索,通過利用新聞內容信息、發布者可信度[6]、網民評論等特征訓練機器學習模型,自動輸出新聞線索的可信度,將可信度較低的新聞預測為謠言;由于上述方案都忽略了已被辟謠的謠言繼續傳播的情況,而“舊謠新傳”在現實中仍占有一定比例,近年來研究者提出了第三類思路,專門針對已澄清的謠言進行“謠言-辟謠文章”匹配,即以待測消息為檢索輸入,向辟謠文章庫進行檢索,通過待測消息和辟謠文章的匹配程度,來確定待測消息是否已經被辟謠,從而幫助找到辟謠后仍在傳播的謠言。
目前的“謠言-辟謠文章”匹配方法局限于通用的信息檢索方法,分別獲得待測消息和辟謠文章中每個句子的表示向量,隨后對句子向量間的余弦相似度求平均數,作為待測消息與辟謠文章之間的匹配度。然而,這些方法存在一個根本缺陷:辟謠文章通常較長,真正對匹配有效的句子往往只有少數幾句,對整篇文章的建模會極大地影響效率,同時很容易受到其它無關內容的干擾。這種不足出現的原因,主要在于已有工作將辟謠文章當成了普通文章看待,從而將該任務代入了通用的信息檢索框架。因此,針對“謠言-辟謠文章”匹配任務中的文本特點設計模型和方法十分必要。
發明內容
本發明的目的是彌補現有“謠言-辟謠文章”匹配技術缺少對辟謠文章中關鍵句子特點建模的不足,提出了一種基于引述句和模式句引導的“謠言-辟謠文章”匹配方法。
針對現有技術的不足,本發明提出一種引述句和辟謠模式句引導的“謠言-辟謠文章”匹配方法,其中包括:
步驟1、將待測消息q和其對應辟謠文章d中的l個句子S={s1,s2,…,sl}分別組成包含待測消息q和辟謠句si的l個待測對,并將該l個待測對拼接后輸入至嵌入表示層,得到殘差嵌入表示rs,q;
步驟2、分別計算待測對的匹配得分scrQ(q,s)和模式-辟謠句的匹配得分scrP(q,s),并得出s對q的重要性得分scr(q,s);
步驟3、對待測消息q和辟謠文章中所有句子S的重要性得分進行排序,選取得分最高的前k句作為關鍵句將待測消息q和關鍵句構成的信息對分別輸入第一變換器模塊,得到聯合表示之后采用第二變換器模塊獲取的精細表示向量q′和skey′;
步驟4、選擇辟謠模式向量庫中與q和skey殘差嵌入表示距離最近的辟謠模式向量mu,拼接q′、skey′和mu,得到拼接向量vi;
步驟5、對所有關鍵句對應的拼接向量進行加權求和后輸入全連接神經網絡,其中每個拼接向量的權重為歸一化之后的重要性得分,全連接神經網絡輸出結果作為待測消息q和辟謠文章d的匹配度得分根據該匹配度得分判定該辟謠文章d是否匹配該待測消息q。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110761419.9/2.html,轉載請聲明來源鉆瓜專利網。





