[發明專利]基于MG-LSTM的引文差異匹配方法、裝置及存儲介質有效
| 申請號: | 202010834878.0 | 申請日: | 2020-08-19 |
| 公開(公告)號: | CN112035607B | 公開(公告)日: | 2022-05-20 |
| 發明(設計)人: | 王也;龍軍;章成源;魏翔翔;楊展 | 申請(專利權)人: | 中南大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/258;G06F40/284;G06F40/289;G06N3/04;G06N3/08 |
| 代理公司: | 長沙市融智專利事務所(普通合伙) 43114 | 代理人: | 胡喜舟 |
| 地址: | 410083 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 mg lstm 引文 差異 匹配 方法 裝置 存儲 介質 | ||
本發明公開了一種于MG?LSTM的引文差異匹配方法、裝置及存儲介質,其中方法包括:獲取待甄別引文和可信引文的標題、作者、出版社元數據;以單詞和字符為分割粒度,將待甄別引文和可信引文的標題、作者、出版社元數據分別分割轉換為標題嵌入向量對、作者嵌入向量對、出版社嵌入向量對;基于注意力機制分別學習各嵌入向量對的權重,并基于對應權重更新各嵌入向量對;將更新后的各嵌入向量對輸入預先訓練好的引文差異識別模型中,輸出引文差異匹配結果類別。可進行引文細粒度甄別,判斷引文存在何種差異類型;通過引入注意力機制能更好的表征待甄別引文與可信引文的各元數據間的相互關系,再結合雙向LSTM網絡同時保留兩個方向的特征信息,確保了甄別精度。
技術領域
本發明涉及引文差異識別技術領域,尤其涉及一種基于MG-LSTM的引文差異匹配方法、裝置及存儲介質。
背景技術
近年來,隨著國家對科研投入不斷增加,各類科學基金項目申請數量也屢創新高,在項目申請書中包含大量的引文數據。面對海量的引文數據,依靠管理人員發現或面向社會征求舉報的方式,工作量巨大、效率低且準確性難以保證,難以滿足實際需求。
引文甄別是指對基金項目申請書中成果引文數據的真實性判別,為基金項目形式審查中對申請人前期研究基礎評估提供輔助支持。在引文甄別過程中存在諸多挑戰:針對引文整體相似性比對難以甄別出引文的差異類型;待甄別引文通常是手工錄入,而可信引文可能來源于不同的數據庫,存在數據規范不一致的問題,增加了引文精確甄別的難度。
發明內容
本發明提供了一種基于MG-LSTM(Multi-granularity Long Short-Term Memory,多粒度長短期記憶網絡)的引文差異匹配方法、裝置及存儲介質,以解決相關技術中依靠人工發現效率低、工作量大,且準確性難以保證的問題。
第一方面,提供了一種基于MG-LSTM的引文差異匹配方法,包括:
步驟1:獲取待甄別引文和可信引文的標題、作者、出版社元數據;
步驟2:以單詞和字符為分割粒度,將待甄別引文和可信引文的標題、作者、出版社元數據分別分割轉換為標題嵌入向量對、作者嵌入向量對、出版社嵌入向量對;
步驟3:基于注意力機制分別學習標題嵌入向量對、作者嵌入向量對、出版社嵌入向量對的權重,并基于對應權重更新標題嵌入向量對、作者嵌入向量對、出版社嵌入向量對;
步驟4:將更新后的標題嵌入向量對、作者嵌入向量對、出版社嵌入向量對輸入預先訓練好的引文差異識別模型中,輸出引文差異匹配結果類別;其中,
所述引文差異識別模型包括三個輸入子網絡和一個基于全連接層神經網絡的引文差異分類器,三個輸入子網絡的輸出作為引文差異分類器的三個輸入,更新后的標題嵌入向量對、作者嵌入向量對、出版社嵌入向量對分別作為三個輸入子網絡的輸入;而且,
每個輸入子網絡包括一個基于孿生的雙向LSTM網絡的引文特征提取層和一個基于張量的引文相似性表示層,引文特征提取層的輸出為引文相似性表示層的輸入;具體的,
用U′i和U′j表示更新后的標題嵌入向量對,或作者嵌入向量對,或出版社嵌入向量對;將U′i和U′j分別作為基于孿生的雙向LSTM網絡的引文特征提取層的兩個輸入,提取得到對應的特征向量Hi和Hj;并將特征向量Hi和Hj輸入基于張量的引文相似性表示層,通過如下公式計算待甄別引文和可信引文的對應元數據的相似性特征向量Q;
其中,g為Tanh函數,Wt、bt分別表示基于孿生的雙向LSTM網絡的引文特征提取層中權重和偏置,S[1:n]表示一個張量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中南大學,未經中南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010834878.0/2.html,轉載請聲明來源鉆瓜專利網。





