[發(fā)明專利]一種基于圖、引文和內(nèi)容的論文混合推薦方法有效
| 申請(qǐng)?zhí)枺?/td> | 202011156053.4 | 申請(qǐng)日: | 2020-10-26 |
| 公開(公告)號(hào): | CN112364151B | 公開(公告)日: | 2023-06-27 |
| 發(fā)明(設(shè)計(jì))人: | 吳奇石;康穎;侯愛琴;趙子民 | 申請(qǐng)(專利權(quán))人: | 西北大學(xué) |
| 主分類號(hào): | G06F16/335 | 分類號(hào): | G06F16/335;G06F16/332 |
| 代理公司: | 西安恒泰知識(shí)產(chǎn)權(quán)代理事務(wù)所 61216 | 代理人: | 李鄭建 |
| 地址: | 710069 *** | 國(guó)省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 引文 內(nèi)容 論文 混合 推薦 方法 | ||
本發(fā)明公開了一種基于圖、引文和內(nèi)容的論文混合推薦方法,通過(guò)引文關(guān)系構(gòu)建有向引文圖來(lái)查找相關(guān)論文集,并結(jié)合基于引文與基于內(nèi)容的方法來(lái)計(jì)算論文之間的相似度,按照混合模型產(chǎn)生的相似度對(duì)相關(guān)論文集進(jìn)行排序和推薦。考慮到不同章節(jié)的引用重要性不同,對(duì)基于引文的方法進(jìn)行了改進(jìn),提出了基于章節(jié)的引文相似度,對(duì)不同章節(jié)的引文分配不同的權(quán)重,從而提高推薦的準(zhǔn)確性。
技術(shù)領(lǐng)域
本發(fā)明屬于推薦系統(tǒng)領(lǐng)域,涉及一種基于圖、引文和內(nèi)容的論文混合推薦方法。
背景技術(shù)
在科研工作中,研究者往往需要閱讀大量論文,但隨著論文網(wǎng)站中論文數(shù)量的增多,用戶很難通過(guò)關(guān)鍵詞搜索到自己感興趣的論文。因此需要更好的論文推薦方法來(lái)為用戶推薦論文。
論文推薦方法主要基于論文的基本信息,包括關(guān)鍵詞、摘要、作者和引文等。已有的方法中,基于引用的推薦方法被廣泛應(yīng)用。如通過(guò)直接引用關(guān)系建立評(píng)分矩陣,然后采用協(xié)同過(guò)濾方法推薦論文。但隨著論文的增多,基于協(xié)同過(guò)濾的方法存在冷啟動(dòng)和稀疏矩陣的問(wèn)題。除協(xié)同過(guò)濾外,引文分析也是基于引用的一個(gè)重要應(yīng)用。引文分析主要通過(guò)分析引文關(guān)系進(jìn)行推薦,引文關(guān)系分為直接引用、文獻(xiàn)耦合、共被引等,其中文獻(xiàn)耦合和共被引關(guān)系在論文推薦中表現(xiàn)出較高的邏輯相關(guān)性。論文是主要是文本信息,因此也有很多方法基于關(guān)鍵詞、摘要等內(nèi)容進(jìn)行推薦,但由于pdf文本抽取技術(shù)的困難以及大量文本計(jì)算的耗時(shí),基于內(nèi)容的方法通常表現(xiàn)的性能不是非常好。此外基于圖的方法也十分常用,通過(guò)引文、關(guān)鍵詞、主題、作者或用戶信息之間的聯(lián)系建立一個(gè)圖結(jié)構(gòu)來(lái)推薦論文,如何更好的組織利用這些信息仍需要更多的研究。
由于單一方法都存在一些缺陷,并且不利于推薦的多樣性,目前越來(lái)越多的方法采用混合模型來(lái)推薦論文,并且結(jié)果表明,混合模型的性能遠(yuǎn)遠(yuǎn)好于單一方法。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中單一方法的不足,本發(fā)明的目的在于,提供一種基于圖、引文和內(nèi)容推薦的混合推薦方法。
為了實(shí)現(xiàn)上述任務(wù),本發(fā)明采取如下的技術(shù)解決方案:
一種基于圖、引文和內(nèi)容的論文混合推薦方法,其特征在于,具體實(shí)現(xiàn)步驟如下:
步驟一,有向引文圖構(gòu)建
對(duì)當(dāng)前進(jìn)行推薦的論文,即目標(biāo)論文通過(guò)引文關(guān)系構(gòu)建有向引文圖來(lái)生成相關(guān)論文集;引文關(guān)系包括直接引文和間接引文,其中,間接引文包括文獻(xiàn)耦合、共被引結(jié)構(gòu);所述有向引文圖結(jié)構(gòu)包括有多個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)代表一篇論文,兩個(gè)節(jié)點(diǎn)之間的邊表示引用關(guān)系,有+1、-1兩種類型的邊,+1表示引用,-1表示被引;
通過(guò)有向引文圖獲取相關(guān)論文集有兩個(gè)步驟:
1)直接引用的節(jié)點(diǎn)通過(guò)一條邊到達(dá);
2)間接引用的節(jié)點(diǎn)通過(guò)兩條邊到達(dá);
一個(gè)目標(biāo)論文的相關(guān)論文集被表示為:
RP(t)={(r1,sim1,p1),(r2,sim2,p2),...,(ri,simi,pi),...}(0i≤n)
其中,t是目標(biāo)論文,t的相關(guān)論文個(gè)數(shù)為n,ri為相關(guān)論文,simi為ri與t之間的相似度,pi為由t到ri的路徑各邊相似度之和,所有的相關(guān)論文的相似度初始為0;
步驟二,基于章節(jié)的引文相似度
從論文中提取引用所在章節(jié),由于每篇論文的章節(jié)結(jié)構(gòu)都不同,需要將所有的論文章節(jié)映射到一個(gè)通用的章節(jié)結(jié)構(gòu),并對(duì)章節(jié)分配權(quán)重;基于章節(jié)的引文相似度計(jì)算如下:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西北大學(xué),未經(jīng)西北大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011156053.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 倒排索引文件的存儲(chǔ)方法和裝置
- 一種索引文件恢復(fù)方法、裝置及視頻監(jiān)控系統(tǒng)
- 索引文件的生成方法及裝置
- 用于更新索引文件的方法和裝置
- 一種基于判別混合模型的實(shí)體-引文相關(guān)性分類方法
- 一種媒體文件獲取方法、裝置及存儲(chǔ)介質(zhì)
- 快速擴(kuò)容的軟件升級(jí)方法
- 一種基于FastText-CRF的引文元數(shù)據(jù)抽取方法
- 引文重要性的識(shí)別方法、裝置、電子設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 基于上下文的引文推薦方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 內(nèi)容再現(xiàn)系統(tǒng)、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容提供裝置、內(nèi)容再現(xiàn)程序和內(nèi)容提供程序
- 內(nèi)容記錄系統(tǒng)、內(nèi)容記錄方法、內(nèi)容記錄設(shè)備和內(nèi)容接收設(shè)備
- 內(nèi)容服務(wù)系統(tǒng)、內(nèi)容服務(wù)器、內(nèi)容終端及內(nèi)容服務(wù)方法
- 內(nèi)容分發(fā)系統(tǒng)、內(nèi)容分發(fā)裝置、內(nèi)容再生終端及內(nèi)容分發(fā)方法
- 內(nèi)容發(fā)布、內(nèi)容獲取的方法、內(nèi)容發(fā)布裝置及內(nèi)容傳播系統(tǒng)
- 內(nèi)容提供裝置、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法
- 內(nèi)容傳輸設(shè)備、內(nèi)容傳輸方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容發(fā)送設(shè)備、內(nèi)容發(fā)送方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法、內(nèi)容再現(xiàn)程序及內(nèi)容提供系統(tǒng)
- 內(nèi)容記錄裝置、內(nèi)容編輯裝置、內(nèi)容再生裝置、內(nèi)容記錄方法、內(nèi)容編輯方法、以及內(nèi)容再生方法





