[發(fā)明專利]一種基于社會網絡分析的學術合作可持續(xù)性的預測方法在審
| 申請?zhí)枺?/td> | 201710030918.4 | 申請日: | 2017-01-18 |
| 公開(公告)號: | CN106886571A | 公開(公告)日: | 2017-06-23 |
| 發(fā)明(設計)人: | 夏鋒;王偉;崔自鑫;高桐;孔祥杰 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q10/04 |
| 代理公司: | 大連理工大學專利中心21200 | 代理人: | 梅洪玉,侯明遠 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 社會 網絡分析 學術 合作 持續(xù)性 預測 方法 | ||
1.一種基于社會網絡分析的學術合作可持續(xù)性的預測方法,其特征在于,步驟如下:
預測方法使用的合作可持續(xù)性預測模型包括數據提取模塊和模型設計模塊;
數據提取模塊包括數據預處理和評價模塊,模型設計模塊包括訓練模塊和預測模塊;
(1)數據提取模塊:用于提取影響合作可持續(xù)性的因素;將影響合作可持續(xù)性的因素作為模型的輸入因素,對合作的可持續(xù)性進行預測;數據提取模塊包括數據預處理模塊和評價模塊;
①數據預處理模塊:用于訓練和測試合作可持續(xù)性預測模型的所有數據都是從DBLP數據集中提??;DBLP數據是一組由計算機科學領域的學者發(fā)表的論文組成;只采用發(fā)表過十篇以上論文的學者數據對合作可持續(xù)性預測模型進行訓練;在重建學者合作數據集后,獲得所有的任意兩名學者之間的合作記錄;
在數據預處理模塊,提取個人屬性和社會屬性,其中共計五個影響因素的數據,并分析其對合作可持續(xù)性的影響;
所有的輸入數據都被歸一化到[0,1],以提高學習的效率,所使用的歸一化思想如下:
另外,所有輸入數據的計算時間節(jié)點是兩個學者第一次合作之時;
當計算最短路徑時,為每一次合作記錄都建立新的學術合作網絡,并通過該建立的網絡計算即將合作的學者A和B之間的最短路徑;將精度精確到年份;
A.個人屬性:本方法中提取學術年齡、論文量和合作者數量三個屬性作為個人屬性;
學術年齡:指合作關系中學者A和學者B第一次合作時的學術年齡;計算方法是將調查當年的年份減去學者發(fā)表第一篇論文的年份;
出版量:指第一次合作時,學者A和學者B發(fā)表的論文數量;
合作者數量:指學者A和學者B合作前兩者各自合作過的學者數量;
B.社會屬性:本方法中提取最短路徑和共同鄰居兩個屬性作為社會屬性;
共同鄰居:指學者A和學者B第一次合作前,兩人都有過合作的學者的數量;根據社會學理論三元閉包理論,擁有越多共同鄰居的兩個人越有可能在未來有所合作;因此,用共同鄰居來衡量兩個學者在合作關系網絡中的相對位置和臨近程度;
最短路徑:指兩個學者在沒有合作之前的合作網絡中,互相到達對方所要經過的學者數量,最短路徑用于測量兩個學者之間的親密程度;
②評價模塊:使用典型的機器學習思想,線性回歸中四種典型的評價方式對模型的預測結果進行評價;同時,為了調查各個輸入屬性對模型的貢獻率,采用如下“jackknife”的思想對各個屬性的貢獻率:a.除去一個屬性后,利用余下的屬性進行預測,即刪除策略;b.只利用一個屬性進行預測,即增加策略;c.利用所有屬性進行預測,即全部策略;
采用四種典型的指標,包括平均絕對誤差MAE、平均平方誤差MSE、皮爾森相關系數PCC和一致性相關系數CCC來評價合作可持續(xù)性預測模型的性能,給出真實值y和預測值則有如下:
MAE的計算方式:
MSE的計算方式:
PCC的計算方式:
CCC的計算方式:
其中,n是預測結果的個數,yi和分別是真實結果和預測結果的第i個值;是y和之間的協方差,和分別是y和的方差,和分別是y和的平均值;得出預測性能越好,MAE和MSE的值越低,PCC和CCC的值越高;
本方法中使用線性回歸模型與合作可持續(xù)性模型進行比較,線性回歸模型是為預測工作找到一個函數f(x),該函數表示為:
f(x)=ω1x1+ω2x2+...+ωdxd+b
或用向量的形式表示為:
f(x)=ωT+b
其中ω和b是從訓練集學習而得;
(2)模型設計模塊:模型設計模塊負責整個合作可持續(xù)性預測模型的構建和訓練,包括訓練模塊和預測模塊;
①訓練模塊:合作可持續(xù)性預測模型由一系列由梯度下降法訓練的決策樹組成,具體為集成樹模塊和梯度下降模塊;
A.集成樹模塊:合作可持續(xù)性預測模型就是嘗試通過給定的參數xi求出預測結果yi,并通過給定的訓練集找到最佳參數;定義以下形式的目標函數,通常包含訓練損失和正規(guī)化兩個部分;
Obj(Θ)=L(θ)+Ω(θ)
其中,L是訓練損失函數,Ω是正則化項,Θ是輸入因素的合集,θ是各個具體的輸入因素;訓練損失函數L測試所提出模型在訓練集上的性能,正則化項Ω控制模型的復雜度,以防止過度擬合;
合作可持續(xù)性預測模型是一個分類與回歸集的集合,各個分類回歸集合的預測結果相加得到最終結果,具體計算過程如下:
其中,K是集成樹的個數,fk是一個獨立樹,F是所有可能的集成樹的集合,因此修改上述公式如下:
其中,l是訓練損失函數,Ω是正則化項;
合作可持續(xù)性預測模型的正則化項Ω如下:
其中,T和ω分別代表集成樹的葉節(jié)點的數量和其對應的預測結果;γ和λ是控制正規(guī)化程度的參數;
B.梯度下降模塊:令作為第i個實例第t次迭代時的預測結果,并增加ft作為一下實體函數的優(yōu)化:
此時Γ(t)是優(yōu)化過程中的實體目標函數Obj(Θ);
對此實體函數進行泰勒展開并定義和因此上述公式展開為如下:
其中,T代表迭代的總次數,Ij={i|q(xi)=j}代表子葉節(jié)點j的實體集,因此最佳的子葉節(jié)點質量由如下方法計算:
其中由此產生的客觀價值由以下方式計算:
在這種情況下,一個較小的Obj值使得集成提升樹的結構更好;同時對每一個葉子節(jié)點添加分割,分裂后的實體計算公式為:
其中,L指左節(jié)點,R指右節(jié)點,代表左子葉節(jié)點的質量,代表右子葉節(jié)點的質量;代表原節(jié)點未分解前的值;γ代表附加葉上面的正則化項值;
②預測模塊:預測模塊負責對兩學者的學術合作可持續(xù)性進行預測;由于學術合作的可持續(xù)性從合作時間和合作次數兩個方面進行研究和定量,預測模塊的預測工作也由這兩部分組成,即合作時間持續(xù)性預測模塊和合作次數持續(xù)性預測模塊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710030918.4/1.html,轉載請聲明來源鉆瓜專利網。





