[發明專利]引述句和辟謠模式句引導的“謠言-辟謠文章”匹配方法及系統有效
| 申請號: | 202110761419.9 | 申請日: | 2021-07-06 |
| 公開(公告)號: | CN113536760B | 公開(公告)日: | 2023-09-26 |
| 發明(設計)人: | 曹娟;盛強;張雪遙;鐘雷;謝添 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/30;G06F16/35;G06F18/23213;G06F18/214;G06N3/04;G06N3/084 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 11006 | 代理人: | 祁建國 |
| 地址: | 100080 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 引述 辟謠 模式 引導 謠言 文章 匹配 方法 系統 | ||
1.一種引述句和辟謠模式句引導的“謠言-辟謠文章”匹配方法,其特征在于,包括:
步驟1、將待測消息q和其對應辟謠文章d中的l個句子S={s1,s2,…,sl}分別組成包含待測消息q和辟謠句si的l個待測對,并將該l個待測對拼接后輸入至嵌入表示層,得到殘差嵌入表示rs,q;
步驟2、分別計算待測對的匹配得分scrQ(q,s)和模式-辟謠句的匹配得分scrP(q,s),并得出s對q的重要性得分scr(q,s);
步驟3、對待測消息q和辟謠文章中所有句子S的重要性得分進行排序,選取得分最高的前k句作為關鍵句將待測消息q和關鍵句構成的信息對分別輸入第一變換器模塊,得到聯合表示之后采用第二變換器模塊獲取的精細表示向量q'和skey′;
步驟4、選擇辟謠模式向量庫中與q和skey殘差嵌入表示距離最近的辟謠模式向量mu,拼接q'、skey′和mu,得到拼接向量vi;
步驟5、對所有關鍵句對應的拼接向量進行加權求和后輸入全連接神經網絡,其中每個拼接向量的權重為歸一化之后的重要性得分,全連接神經網絡輸出結果作為待測消息q和辟謠文章d的匹配度得分根據該匹配度得分判定該辟謠文章d是否匹配該待測消息q;
該步驟1包括:
將該l個待測對與分類保留字[CLS]和分隔保留字[SEP]拼接后,輸入嵌入表示層,將得到的殘差嵌入表示rs,q輸入第一變換器模塊,得到q和s的聯合表示:
zq,s=Transformer([CLS]q[SEP]s)
提取zq,s中[CLS]對應的向量zq,s([CLS]),并輸入全連接神經網絡Dense1,得到文本相似度估計向量
對該估計向量,使用文本相似度指標R(q,s)作為監督信號,計算如下損失函數:
其中,是文本相似度指標得分,Δθ代表Transformer模塊的參數變化量,λR是代表約束程度的常數;
根據該損失函數對該第一變換器模塊的權重參數進行調整;
對每一對q和s,計算兩者的殘差嵌入表示rs,q:
rs,q=AvgToken(s)-AvgToken(q)
其中AvgToken為詞項嵌入表示的平均值,并只保留二范數在一定范圍區間內的殘差嵌入表示,即滿足條件:
tlow<||rs,q||2<thigh
其中tlow和thigh是常數;
對符合上述條件的殘差嵌入表示進行向量聚類,聚類得到的K個聚類中心向量即初始辟謠模式向量,記為m1,m2,…,mK,并將上述向量保存到該辟謠模式向量庫中。
2.如權利要求1所述的引述句和辟謠模式句引導的“謠言-辟謠文章”匹配方法,其特征在于,在每個訓練樣本批中使用反向傳播優化該“謠言-辟謠文章”匹配方法中的神經網絡參數,損失函數為交叉熵損失函數:
其中yq,d∈0,1是訓練集提供的真實標簽,在每個訓練周期結束后,對辟謠模式向量庫中每個模式向量進行更新。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110761419.9/1.html,轉載請聲明來源鉆瓜專利網。





