[發明專利]一種基于學術大數據的論文影響力預測方法有效
| 申請號: | 201810474777.X | 申請日: | 2018-05-17 |
| 公開(公告)號: | CN108764546B | 公開(公告)日: | 2021-04-13 |
| 發明(設計)人: | 白曉梅;張福利;李季;韓祿;那艷 | 申請(專利權)人: | 鞍山師范學院 |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06F30/20 |
| 代理公司: | 遼寧鴻文知識產權代理有限公司 21102 | 代理人: | 楊植 |
| 地址: | 114007 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 學術 數據 論文 影響力 預測 方法 | ||
1.一種基于學術大數據的論文影響力預測方法,其特征在于,步驟如下:
(1)依據論文固有的潛力、論文影響力隨時間的衰減、早期引用者影響力的特征以及早期引用量進行建模
1.1)分析論文固有的潛力:每篇論文都有它潛在的影響力,而決定論文固有的潛力的關鍵因素就是作者影響力;一篇論文固有的潛力通過作者影響力Q值來刻畫;當作者的Q值高于1時,對論文影響力具有提升作用;當作者的Q值低于1時,其能夠降低論文的影響力,
1.2)論文影響力隨時間的衰減;
1.3)早期引用作者的影響力:早期引用作者的影響力對論文的引用量起到正面作用;
1.4)早期引用量:論文在早期的引用量越多,論文在之后便可能獲得更多的引用量;
1.5)基于上述與論文影響力變化相關的特征進行點估計建模,一篇學術論文的潛在被引用的強度函數定義如下:
其中,β是論文質量系數;QdMax表示一篇論文署名作者中,論文影響力最大的作者的影響力;是時間衰減函數,表示隨著時間的推移,論文的影響力是逐漸衰減的;αd表示一篇論文引用影響的系數;j表示一篇論文;Dj表示隨著時間的變化,早期引用作者的影響力;表示目前引用量衰減的值;
Q值公式如下:
其中,Qi表示作者i的Q值,logciκ表示作者i所發表的所有論文的引用量的對數平均值;κ表示作者i的第κ篇論文;μp表示作者i所有論文潛在影響的平均值;
早期引用作者的影響力Dj公式如下:
此公式表示早期引用作者的影響力對論文影響力變化起到積極作用;其中,Qj表示引用作者的影響力,QjMax表示引用作者中影響力最大的作者的影響力;
(2)根據步驟(1)中的模型進行參數求解
2.1)為了獲得模型中所有參數的最優值,采用極大似然估計的方法,即最大化在第i-1次引用于時間點ti-1到達的條件下,第i次引用于時間點ti到達的概率;該條件概率的表達式為:
之后,使用極大似然估計法,在每篇論文的引用序列上計算似然函數,并對似然函數取對數,記為:
其中,n為某篇論文的引用量,ti表示第i次引用發生的時間;通過計算其對偶方程的極小值來得到對數似然函數的極大值;T表示引用時間;將公式p(ti|ti-1)帶入上式中,同時添加一個稀疏化正則項||β||1,在整個數據集上,得到如下目標函數:
其中,N是數據集中論文的總數,sd表示一篇論文對應的特征;
2.2)添加l1正則項使得目標函數不可微,因此使用交換方向乘子算法將原優化問題分解為幾個較為簡單的子問題,通過引入輔助變量z,下列公式中的優化問題由如下的約束優化形式表述:
minL+λ||z||1s.t.β=z.
其對應的增廣拉格朗日方程為:
其中,L表示目標函數,u是對偶變量或稱為拉格朗日乘子;ρ是懲罰系數,用作更新對偶變量的迭代步長;使用ADMM算法解決上述增廣拉格朗日優化問題的步驟如下:
它包括三個過程,一個參數最小化過程:
(βl+1,αl+1)=argminβ≥0,α≥0Lρ(βl,αl,zl,ul)
一個輔助參數最小化過程:
zl+1=Sλ/ρ(βl+1+αl+1)
以及一個對偶參數更新過程:
ul+1=ul+βl-zl+1
其中,Sλ/ρ是軟臨界值函數;
2.3)使用EM算法解出參數α和β;為了高效的解決參數最小化過程中的優化問題,我們使用EM框架來更新參數α和β;記特征a激發事件b的概率為pab,事件b激發事件c的概率為pbc,則EM算法中的E步如下:
M步如下:
其中,通過迭代執行E步和M步直至收斂,我們可以得到參數α和β的最優值;之后,將α和β的新值帶回到ADMM算法中更新u和z的值;在這一步中,將每篇論文的參數w1和w2均置為1;
2.4)得到參數α和β的最優值后,再通過梯度下降法求解每一篇論文的參數w1和w2;其中,目標函數關于w1和w2的梯度如下:
當得到所有參數α、β、w1、w2的最優值后,對強度函數λ(t)在給定的一個時間段上作積分來估計某篇論文未來一段時間后的引用量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鞍山師范學院,未經鞍山師范學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810474777.X/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





