[發明專利]基于圖局部結構和文本語義相似性的學術論文推薦方法有效
| 申請號: | 202010730690.1 | 申請日: | 2020-07-27 |
| 公開(公告)號: | CN112069290B | 公開(公告)日: | 2022-07-12 |
| 發明(設計)人: | 杜一;寧致遠;喬子越;周園春 | 申請(專利權)人: | 中國科學院計算機網絡信息中心 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/335;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 司立彬 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 局部 結構 文本 語義 相似性 學術論文 推薦 方法 | ||
本發明公開了一種基于圖局部結構和文本語義相似性的學術論文推薦方法。本方法為:1)基于論文庫中論文的關鍵詞、機構、作者特征構建包含論文和論文關系的異質網絡;2)對于論文pi,基于該異質網絡計算與論文pi有關聯的論文相似度,形成一推薦結果候選集;3)生成論文庫中每一論文的關系表征向量和語義表征向量,并加權求和得到對應論文的最終表征向量;將論文pi加入到該論文庫中并生成論文pi的最終表征向量;4)計算論文庫中每一論文的最終表征向量與論文pi的最終表征向量的相似性,并根據所得相似性選取多個論文作為論文pi的待推薦候選論文;5)將推薦結果候選集與待推薦候選論文進行融合,選取相似性最高的若干論文作為論文pi的推薦論文。
技術領域
本發明涉及文本數據挖掘,圖數據挖掘,神經網絡,異質網絡嵌入技術領域,文本預訓練模型技術領域,具體是一種基于異質網絡圖局部結構和學術論文標題和摘要語義相似性的學術論文推薦技術。
背景技術
近年來,隨著互聯網技術的高速發展,學術研究領域也發生著翻天覆地的變化,網絡上學術論文的數量呈爆炸式增長。科研信息過載使得研究人員在網絡上查找其所需要的學術論文信息時,往往需要花費大量的時間和精力,間接造成了科研浪費。因此如何快速、準確的為研究人員找到其感興趣的學術論文信息成為亟待解決的問題。目前,推薦系統在電子商務、新聞和社交網絡等領域有著廣泛的應用,與傳統的基于關鍵詞的搜索技術相比,推薦系統對于海量數據更加有效和個性化。特別是在學術領域,一些研究人員不知道如何總結他們的需求,將導致輸入不適當的關鍵詞。相比之下,學術論文推薦系統通常會考慮研究者的興趣、合著者關系和引用關系來設計推薦算法并提供推薦列表。隨著信息技術的快速發展,科研信息服務平臺已經廣泛出現,這些平臺包含了大量論文及其相關信息,例如論文名、摘要、關鍵詞、作者、機構、引用關系等。因此,利用這些科研信息服務平臺的數據庫中的重要信息可以開發出高效的學術論文推薦系統,幫助研究人員快速檢索到他們感興趣或者領域相關的論文。目前已經有很多研究者針對學術論文推薦問題提出了解決方法,這些方法主要包括:針對一篇論文和它的候選論文,通過它們的關鍵詞計算它們之間的相似性,相似性排序后,高相似性的論文將被推薦給用戶;基于論文庫構建一個圖,其中作者和論文被視為節點,論文之間的關系、用戶之間的關系以及用戶與論文之間的關系被視為邊。然后使用隨機游走或其他算法來計算用戶和論文之間的相關性。
發明內容
本發明的目的是提供了一種基于論文的網絡表征和語義表征來進行論文推薦的技術方案。該技術方案利用論文的作者、機構、關鍵詞構建一個論文關系異質網絡,并利用這些信息得到異質網絡中各個論文關系的表征向量。再利用論文標題、摘要中的文本信息,通過ELMO、Bert、GPT-2等文本預訓練模型得到各個論文的語義表征向量。再將論文關系表征向量和論文語義表征向量加權求和,得到論文的最終表征向量。最后,基于所有論文的最終表征向量,給定任一論文,將所有論文與該論文的余弦相似性排序,并將高相似性的論文推薦給用戶。
本方法的有效性在于融合了異質網絡表示學習方法,以及網絡特征。
本發明具體包括以下步驟:
步驟一:基于論文的關鍵詞、機構、作者特征構建包含論文和論文關系的異質網絡。給定任一論文,基于該異質網絡,計算論文的加權相似度,并形成基于網絡關系的論文加權相似度排序,并排序形成推薦結果候選集。
步驟二:針對步驟一生成的異質網絡,基于元路徑的隨機游走策略生成包含論文id的路徑集,并利用word2vec模型訓練得到論文的關系表征向量,具體使用python中gensim庫中的word2vec模型。
步驟三:利用論文的標題,摘要中的文本信息,使用文本預訓練模型得到論文的語義表征向量。
步驟四:將步驟二中的論文關系表征向量和步驟三中的論文語義表征向量加權求和,得到論文的最終表征向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算機網絡信息中心,未經中國科學院計算機網絡信息中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010730690.1/2.html,轉載請聲明來源鉆瓜專利網。





