[發明專利]基于論文作者信息提取和關系權值模型的學術關系網構造方法在審
| 申請號: | 201410395729.3 | 申請日: | 2014-08-13 |
| 公開(公告)號: | CN104156437A | 公開(公告)日: | 2014-11-19 |
| 發明(設計)人: | 袁偉;鄧攀;閆碧瑩;李玉成 | 申請(專利權)人: | 中科嘉速(北京)并行軟件有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京永創新實專利事務所 11121 | 代理人: | 祗志潔 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 論文 作者 信息 提取 關系 模型 學術 關系網 構造 方法 | ||
技術領域
本發明屬于計算機應用技術領域,涉及基于關系權值模型的學術關系網構造方法,特別涉及一種基于論文作者信息提取來獲取關系權值的學術關系網構造方法。
背景技術
1967年美國社會心理學家米爾格倫(Stanley?Milgram)提出了一個“六度分離”(六度區隔)理論(Six?Degrees?of?Separation)。該理論認為在人際交往的脈絡中,任意兩個陌生人都可以通過“親友的親友”建立聯系,這中間最多只要通過五個朋友就能達到目的。
基于“六度分離”理論,2008年6月28日微軟悄然推出一款能夠直觀顯示被搜索者人脈關系的“人立方”關系搜索引擎。作為一款新型社會化搜索引擎,“人立方”關系搜索引擎能從超過十億的中文網頁中自動地抽取出人名、地名、機構名以及中文短語,并自動計算出它們之間存在關系的可能性。用戶只要隨便輸入一個人物,“人立方”搜索將給出該人物的關系、網頁、資訊、簡介等眾多內容。
然而對于只關注特定學術領域的作者來說,通過現有人際關系網絡的搜索方法得到的人際關系結果中,關系傳遞路徑可能包含非學術領域的人員,結果路徑中公眾影響力巨大的名人比例較大,對于獲取實際的本學術領域內的人際關系和人員信息的幫助甚小。
針對學術領域的人際圈搜索萬方數據庫已經有所嘗試,但是目前萬方學術圈搜索只支持對于直接人際關系的搜索,尚未通過間接人際關系來建立學術關系網。
發明內容
本發明針對現有人際關系搜索方法對特定學術領域的搜索結果不理想的問題,提供了一種基于論文作者信息提取和關系權值模型的學術關系網構造方法。
基于論文作者信息提取和關系權值模型的學術關系網構建方法,包括如下步驟:
步驟1、提取作者庫中所有作者信息,構建初始的作者關系矩陣;
所述的作者關系矩陣的第i行第j列的元素值為第i個作者和第j個作者的關系值,用0表示作者與自己的關系,-1表示兩位作者之間的關系不可達;初始的作者關系矩陣中,對角線上元素值為0,其余位置元素值為-1;
步驟2、建立作者關系權值模型,根據每篇論文的作者信息更新作者關系矩陣;
步驟3、基于步驟2得到的作者關系矩陣確定兩兩作者間最優關系傳遞路徑,根據最優關系傳遞路徑構建作者關系圈;
所述的兩兩作者間最優關系傳遞路徑需滿足以下幾個條件:
1)兩者之間經過的路徑絕對值長度最短;
2)在所有最短路徑中關系值和最大;
3)經過的最短路徑小于6。
步驟4、定期更新作者關系矩陣和作者關系圈。由于學術論文庫是動態的、不斷更新的,該方法對學術論文庫進行定期掃描以更新作者關系矩陣和作者關系圈,保證該方法建立的作者關系矩陣和學術關系網能反映最新學術界關系情況。
步驟2所述的作者關系權值模型定義如下:
對于一篇論文P,包括通訊作者在內共有N個作者,對于其中任意兩個作者A,B,設作者A是論文P的第m作者,作者B是論文P的第n作者,論文P為作者A與B的關系值貢獻的參考值
其中,為了捕獲從通訊作者以及作者次序反映出的作者關系遠近信息,設置c,d,e,S,x等參數,具體說明如下:
c表示第一作者和通訊作者的關系加強值,c的取值根據長期實驗的經驗值決定;
x表示作者機構決定的作者關系的權重,x的取值根據長期實驗的經驗值決定;
S表示由作者次序反映作者關系遠近信息的分界值,S的取值根據長期實驗的經驗值決定;
d表示第一作者和作者次序在S+1位之前的非通訊作者的關系加強值,d的取值根據長期實驗的經驗值決定;
e表示第一作者和作者次序在S位之后的非通訊作者的關系在第一作者與作者次序在S+1位之前的作者間關系加權值d基礎上的削弱值,e的取值根據長期實驗的經驗值決定;
所得到的參考值Relation<P,<A,B>>四舍五入到整數。
步驟2所述的更新作者關系矩陣,具體是:設k篇論文為作者A和B的關系值貢獻的參考值分別為r1,r2,…,rk,則作者A和B的關系值用得到的關系值更新作者關系矩陣中表示A和B關系值的元素值。
步驟c還包括下列步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中科嘉速(北京)并行軟件有限公司,未經中科嘉速(北京)并行軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410395729.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種網頁文本摘要生成方法和裝置
- 下一篇:事務日志的管理方法和裝置
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





