[發明專利]基于圖神經網絡的科學文獻關鍵內容潛在關聯挖掘方法在審
| 申請號: | 202011223846.3 | 申請日: | 2020-11-05 |
| 公開(公告)號: | CN112364141A | 公開(公告)日: | 2021-02-12 |
| 發明(設計)人: | 王盈輝;焦鵬飛;王文俊;潘林;孫越恒 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F16/34;G06N3/04;G06N3/08 |
| 代理公司: | 天津鉑茂專利代理事務所(普通合伙) 12241 | 代理人: | 陳曉蕾 |
| 地址: | 300073*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 神經網絡 科學 文獻 關鍵 內容 潛在 關聯 挖掘 方法 | ||
本發明公開了基于圖神經網絡的科學文獻關鍵內容潛在關聯挖掘方法,包括以下步驟:S1獲取某一特定事件相關的科學文獻數據,并進行數據清洗和預處理;S2利用TF?IDF方法抽取文獻內容關鍵詞;S3以句子為單位,對抽取出的關鍵詞和關鍵詞所屬參考文獻構建詞共現網絡;S4利用圖卷積神經網絡學習關鍵詞的向量表示;S5利用相似度計算函數得到不同關鍵詞之間的相關度,挖掘其潛在的關聯關系。本發明通過對文章內容抽取出的關鍵詞關系進行建模,利用圖卷積神經網絡技術,對文獻主要關鍵詞的潛在關聯進行挖掘,滿足對科學文獻內容進行分析需求,實現對不同領域科學文獻的相關性進行分析,為科學文獻的系統分析提供了有效的方法。
技術領域
本發明涉及文獻分析技術領域,尤其涉及基于圖神經網絡的科學文獻關鍵內容潛在關聯挖掘方法。
背景技術
圖神經網絡目前被逐步應用于自然語言處理領域,如文本分類、信息檢索、機器翻譯等任務中,科學文獻數據作為自然語言中常見的數據集,是指由論文信息及其作者信息構成的數據集,基于科學文獻數據提供的論文參考文獻以及作者信息,可以建立由科學家、論文構成的二分網,科學家合作網絡,科學引文網絡以及雜志-論文耦合網絡,科研單位-論文耦合網絡等。
近年來,隨著復雜網絡研究的發展,為科學文獻的系統分析提供了有效的方法和工具,開發了CiteSpace、Sci2等相關分析軟件,可以對上述網絡的拓撲結構及演化模式和演化機制等進行分析,除科學文獻基本信息外,科學文獻自身的文章內容也蘊含了豐富的信息,但現有的文獻分析方法并未對其進行充分的利用。
發明內容
本發明的目的在于提供基于圖神經網絡的科學文獻關鍵內容潛在關聯挖掘方法,通過對文章內容抽取出的關鍵詞關系進行建模,利用圖卷積神經網絡技術,對文獻主要關鍵詞的潛在關聯進行挖掘,滿足對科學文獻內容進行分析需求,實現對不同領域科學文獻的相關性進行分析。
為了實現上述目的,本發明采用了如下技術方案:基于圖神經網絡的科學文獻關鍵內容潛在關聯挖掘方法,包括以下步驟:
S1:獲取某一特定事件相關的科學文獻數據,并進行數據清洗和預處理;
S2:利用TF-IDF方法抽取文獻內容關鍵詞;
S3:以句子為單位,對抽取出的關鍵詞和關鍵詞所屬參考文獻構建詞共現網絡;
S4:利用圖卷積神經網絡學習關鍵詞的向量表示;
S5:利用相似度計算函數得到不同關鍵詞之間的相關度,挖掘其潛在的關聯關系。
作為上述技術方案的進一步描述:
所述步驟S1獲取某一特定事件相關的科學文獻數據,并進行數據清洗和預處理具體步驟為:
S1.1:文本挖掘,如果要對某一感興趣的事件相關文獻進行分析時,可以在相關數據庫中下載包含該事件關鍵詞的相關文獻,或者直接使用已存在的公開數據集。
S1.2:文本清洗,得到原始數據后,抽取出文獻的摘要和正文內容,如果是中文文本,需要對文本進行分詞,然后去除標點、數字、亂碼和停止詞,減少文本噪聲。
作為上述技術方案的進一步描述:
所述步驟S2利用TF-IDF方法抽取文獻內容關鍵詞具體方法為:利用TF-IDF方法評估一個詞匯對于它所在文本的重要程度,考慮到不同的詞匯關鍵詞對輔助決策的幫助不同,對不同詞性的關鍵詞賦予了不同的權重,并進行了排序。
作為上述技術方案的進一步描述:
所述步驟S3以句子為單位,對抽取出的關鍵詞和關鍵詞所屬參考文獻構建詞共現網絡的具體方法為:抽取文獻內容N個關鍵詞后,利用這N個關鍵詞和其在參考文獻中的共現情況,構建一個無向有權圖。
作為上述技術方案的進一步描述:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011223846.3/2.html,轉載請聲明來源鉆瓜專利網。





