[發(fā)明專(zhuān)利]一種基于多相似度融合的科研合作者推薦方法在審
| 申請(qǐng)?zhí)枺?/td> | 202210003383.2 | 申請(qǐng)日: | 2022-01-04 |
| 公開(kāi)(公告)號(hào): | CN114385927A | 公開(kāi)(公告)日: | 2022-04-22 |
| 發(fā)明(設(shè)計(jì))人: | 萬(wàn)良田;吳海南;孫璐;孔祥杰 | 申請(qǐng)(專(zhuān)利權(quán))人: | 大連理工大學(xué) |
| 主分類(lèi)號(hào): | G06F16/9536 | 分類(lèi)號(hào): | G06F16/9536;G06F40/232;G06F40/289;G06K9/62;G06Q50/00 |
| 代理公司: | 遼寧鴻文知識(shí)產(chǎn)權(quán)代理有限公司 21102 | 代理人: | 苗青 |
| 地址: | 116024 遼*** | 國(guó)省代碼: | 遼寧;21 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 多相 融合 科研 合作者 推薦 方法 | ||
本發(fā)明公開(kāi)一種基于多相似度融合的科研合作者推薦方法,融合了學(xué)者間的合作關(guān)系相似度、研究領(lǐng)域相似度以及學(xué)術(shù)水平相似度三個(gè)學(xué)術(shù)特征,其中合作關(guān)系相似度考慮了兩個(gè)學(xué)者之間最近的合作時(shí)間、合著論文的次數(shù)兩個(gè)因素,研究領(lǐng)域相似度通過(guò)學(xué)者論文摘要的內(nèi)容相似度來(lái)衡量,學(xué)術(shù)水平相似度綜合了學(xué)者的學(xué)術(shù)年齡、h?index、發(fā)表論文的數(shù)量、總被引次數(shù)和合作者數(shù)量五個(gè)學(xué)術(shù)指標(biāo)進(jìn)行衡量。之后通過(guò)學(xué)術(shù)大數(shù)據(jù)建立學(xué)術(shù)合作網(wǎng)絡(luò),將三個(gè)學(xué)術(shù)特征進(jìn)行組合作為網(wǎng)絡(luò)中邊的權(quán)重,以此構(gòu)建學(xué)者間的轉(zhuǎn)移概率矩陣,最后通過(guò)改進(jìn)的重啟型隨機(jī)游走算法來(lái)計(jì)算網(wǎng)絡(luò)中各節(jié)點(diǎn)間的相似性,最后推薦的結(jié)果更加準(zhǔn)確,從而為目標(biāo)學(xué)者推薦最匹配的科研合作者。
技術(shù)領(lǐng)域
本發(fā)明屬于社交網(wǎng)絡(luò)分析技術(shù)領(lǐng)域,尤其涉及一種基于多相似度融合的科研合作者推薦方法。
背景技術(shù)
隨著計(jì)算機(jī)科學(xué)技術(shù)的不斷發(fā)展,人類(lèi)隨之進(jìn)入大數(shù)據(jù)時(shí)代,海量的學(xué)術(shù)數(shù)據(jù)(論文、專(zhuān)利、期刊會(huì)議等)出現(xiàn)在互聯(lián)網(wǎng)上,大量的學(xué)術(shù)實(shí)體和學(xué)術(shù)關(guān)系構(gòu)成了復(fù)雜而龐大的學(xué)術(shù)網(wǎng)絡(luò),在各個(gè)學(xué)科領(lǐng)域建立科學(xué)有效的合作變得比以往任何時(shí)候都更具有挑戰(zhàn),科研人員通常很難找到和自己最匹配的合作者。隨著各類(lèi)學(xué)科的發(fā)展,科研工作者之間的合作變得越來(lái)越重要,學(xué)者之間合作的質(zhì)量往往也決定了最終科研成果的質(zhì)量,可以說(shuō)沒(méi)有科研人員之間的合作就無(wú)法取得如今眾多的科學(xué)成果。但通??蒲腥藛T很難在大量的學(xué)術(shù)數(shù)據(jù)中找到和自己最匹配的合作者,而且傳統(tǒng)的合作方式不僅效率低下,還浪費(fèi)了學(xué)者們大量的時(shí)間和精力。因此,近年來(lái)對(duì)科研合作者的推薦得到了廣泛的研究,如果能夠幫助學(xué)者推薦和自己研究領(lǐng)域相近的其他科研人員,這將會(huì)提高最終科研成果的質(zhì)量,合作的效率也會(huì)進(jìn)一步提高,并且能夠加快科研的進(jìn)度。
發(fā)明內(nèi)容
本發(fā)明針對(duì)現(xiàn)有技術(shù)存在的問(wèn)題與不足,提出了一種基于多相似度融合的科研合作者推薦方法,該方法融合了科研工作者之間的合作關(guān)系相似度、研究領(lǐng)域相似度以及學(xué)術(shù)水平相似度三個(gè)學(xué)術(shù)特征,通過(guò)改進(jìn)的重啟型隨機(jī)游走算法來(lái)計(jì)算學(xué)術(shù)網(wǎng)絡(luò)中各節(jié)點(diǎn)間的相似性,使得游走者能夠游走到最有價(jià)值的合作者節(jié)點(diǎn)。本發(fā)明能夠?yàn)槟繕?biāo)學(xué)者推薦和自己最匹配的科研工作者。
本發(fā)明的技術(shù)方案:
一種基于多相似度融合的科研合作者推薦方法,步驟如下:
步驟1):獲取學(xué)者發(fā)表論文的數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行預(yù)處理操作,從中提取出節(jié)點(diǎn)和邊的信息,構(gòu)建出學(xué)術(shù)合作網(wǎng)絡(luò)。其中節(jié)點(diǎn)為每個(gè)學(xué)者,只要兩個(gè)學(xué)者之間發(fā)生過(guò)至少一次的合作關(guān)系,他們之間就會(huì)用邊相連。
步驟2):計(jì)算合作過(guò)的學(xué)者之間的合作關(guān)系相似度,合作關(guān)系相似度綜合考慮了學(xué)者之間的合作次數(shù)和合作年份等因素,其計(jì)算公式如下:
其中,C(am,an)表示學(xué)者am和an之間的合作關(guān)系相似度,和分別代表學(xué)者am和an發(fā)表論文的總數(shù)量,是論文pi的發(fā)表年份,是兩名學(xué)者第一篇合著論文的發(fā)表年份,tc是當(dāng)前的年份;是兩名學(xué)者合著論文的總數(shù)量。
步驟3):計(jì)算學(xué)者間的研究領(lǐng)域相似度,首先利用Doc2vec模型將學(xué)者論文的摘要轉(zhuǎn)換成向量形式,然后利用余弦相似度計(jì)算向量間的相似性,用以表示科研人員之間論文摘要的內(nèi)容相似度,從而得到科研人員之間的研究領(lǐng)域相似度。包括以下三個(gè)步驟:
3.1)對(duì)論文摘要構(gòu)成的語(yǔ)料庫(kù)進(jìn)行數(shù)據(jù)預(yù)處理,包括大小寫(xiě)轉(zhuǎn)換、拼寫(xiě)錯(cuò)誤檢查、去停用詞等一系列操作,并將標(biāo)點(diǎn)符號(hào)視為無(wú)效詞,最后保存在文本文件之中,之后將處理后的所有文檔數(shù)據(jù)帶入模型進(jìn)行訓(xùn)練,最后利用訓(xùn)練好的Doc2vec模型,把分詞后的文本轉(zhuǎn)換成向量形式。
3.2)生成向量空間后,利用余弦相似度計(jì)算論文摘要對(duì)應(yīng)向量的余弦值,作為論文摘要之間的相似度,計(jì)算公式如下:
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于大連理工大學(xué),未經(jīng)大連理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210003383.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 科研信息演化的分析方法和裝置
- 一種科研用商品智能搜索方法和系統(tǒng)
- 一種科研用商品銷(xiāo)售平臺(tái)的信息推送方法和設(shè)備
- 一種科研管理裝置
- 一種基于實(shí)驗(yàn)最大可重復(fù)性的科研協(xié)作系統(tǒng)
- 一種實(shí)驗(yàn)儀器共享服務(wù)平臺(tái)
- 一種科研績(jī)效考評(píng)系統(tǒng)
- 基于科研能力數(shù)據(jù)的科研項(xiàng)目申報(bào)智能匹配推送方法
- 一種科研人員合作社區(qū)的構(gòu)建方法及裝置
- 面向煙草領(lǐng)域科研人員的多維度畫(huà)像構(gòu)建方法及推薦方法





