[發明專利]基于圖神經網絡的科學文獻關鍵內容潛在關聯挖掘方法在審
| 申請號: | 202011223846.3 | 申請日: | 2020-11-05 |
| 公開(公告)號: | CN112364141A | 公開(公告)日: | 2021-02-12 |
| 發明(設計)人: | 王盈輝;焦鵬飛;王文俊;潘林;孫越恒 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F16/34;G06N3/04;G06N3/08 |
| 代理公司: | 天津鉑茂專利代理事務所(普通合伙) 12241 | 代理人: | 陳曉蕾 |
| 地址: | 300073*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 神經網絡 科學 文獻 關鍵 內容 潛在 關聯 挖掘 方法 | ||
1.基于圖神經網絡的科學文獻關鍵內容潛在關聯挖掘方法,其特征在于,包括以下步驟:
S1:獲取某一特定事件相關的科學文獻數據,并進行數據清洗和預處理;
S2:利用TF-IDF方法抽取文獻內容關鍵詞;
S3:以句子為單位,對抽取出的關鍵詞和關鍵詞所屬參考文獻構建詞共現網絡;
S4:利用圖卷積神經網絡學習關鍵詞的向量表示;
S5:利用相似度計算函數得到不同關鍵詞之間的相關度,挖掘其潛在的關聯關系。
2.根據權利要求1所述的基于圖神經網絡的科學文獻關鍵內容潛在關聯挖掘方法,其特征在于,所述步驟S1獲取某一特定事件相關的科學文獻數據,并進行數據清洗和預處理具體步驟為:
S1.1:文本挖掘,如果要對某一感興趣的事件相關文獻進行分析時,可以在相關數據庫中下載包含該事件關鍵詞的相關文獻,或者直接使用已存在的公開數據集。
S1.2:文本清洗,得到原始數據后,抽取出文獻的摘要和正文內容,如果是中文文本,需要對文本進行分詞,然后去除標點、數字、亂碼和停止詞,減少文本噪聲。
3.根據權利要求1所述的基于圖神經網絡的科學文獻關鍵內容潛在關聯挖掘方法,其特征在于,所述步驟S2利用TF-IDF方法抽取文獻內容關鍵詞具體方法為:利用TF-IDF方法評估一個詞匯對于它所在文本的重要程度,考慮到不同的詞匯關鍵詞對輔助決策的幫助不同,對不同詞性的關鍵詞賦予了不同的權重,并進行了排序。
4.根據權利要求1所述的基于圖神經網絡的科學文獻關鍵內容潛在關聯挖掘方法,其特征在于,所述步驟S3以句子為單位,對抽取出的關鍵詞和關鍵詞所屬參考文獻構建詞共現網絡的具體方法為:抽取文獻內容N個關鍵詞后,利用這N個關鍵詞和其在參考文獻中的共現情況,構建一個無向有權圖。
5.根據權利要求4所述的基于圖神經網絡的科學文獻關鍵內容潛在關聯挖掘方法,其特征在于,所述無向有權圖無向有權圖表示為G=(V,E),其中V={vi|i=1,2,…,N}為節點集,為邊集,N為節點數目,其中,G可以用鄰接矩陣A表示,A∈RN×N,其中Aij=wij如果(vi,vj)∈E,否則Aij=0,wij為邊(vi,vj)的權重;
所述節點為從文章內容中提取的關鍵詞,邊為兩個關鍵詞是否時出現在一篇參考文獻中,邊的權重為兩個關鍵詞同時出現在同一篇參考文獻中的次數。
6.根據權利要求1所述的基于圖神經網絡的科學文獻關鍵內容潛在關聯挖掘方法,其特征在于,所述步驟S4利用圖卷積神經網絡學習關鍵詞的向量表示具體為利用word2vec的CBOW模型在的語料庫進行訓練,所述圖結構節點的輸入特征矩陣,將圖神經網絡基本模型和K-means算法進行聯合訓練,得到關鍵詞共現網絡的節點表示。
7.根據權利要求1所述的基于圖神經網絡的科學文獻關鍵內容潛在關聯挖掘方法,其特征在于,所述步驟S5利用相似度計算函數得到不同關鍵詞之間的相關度,挖掘其潛在的關聯關系具體方法為,得到每個關鍵詞的向量表示和新的類別,可以通過相似度計算函數來計算兩個關鍵詞之間的相關性,或直接可視化網絡節點的空間分布以直觀地展示所有關鍵詞之間的親疏關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011223846.3/1.html,轉載請聲明來源鉆瓜專利網。





