[發(fā)明專利]基于引入語義信息的神經(jīng)網(wǎng)絡(luò)的學(xué)術(shù)關(guān)系預(yù)測方法和裝置在審
| 申請?zhí)枺?/td> | 202011052521.3 | 申請日: | 2020-09-29 |
| 公開(公告)號: | CN112148776A | 公開(公告)日: | 2020-12-29 |
| 發(fā)明(設(shè)計)人: | 趙虹;田宇菲;胡泓;李悅江 | 申請(專利權(quán))人: | 清華大學(xué) |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F16/28;G06F40/30;G06N3/04 |
| 代理公司: | 北京路浩知識產(chǎn)權(quán)代理有限公司 11002 | 代理人: | 鄭朝然 |
| 地址: | 100084 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 引入 語義 信息 神經(jīng)網(wǎng)絡(luò) 學(xué)術(shù) 關(guān)系 預(yù)測 方法 裝置 | ||
本發(fā)明實施例提供一種基于引入語義信息的神經(jīng)網(wǎng)絡(luò)的學(xué)術(shù)關(guān)系預(yù)測方法和裝置,該方法包括:確定待預(yù)測兩節(jié)點的節(jié)點信息組合,學(xué)者節(jié)點的節(jié)點信息包括學(xué)者個人信息,論文節(jié)點的節(jié)點信息包括論文標(biāo)題和論文摘要;將節(jié)點信息組合輸入關(guān)系預(yù)測模型,輸出兩節(jié)點的關(guān)系類型向量;其中,關(guān)系預(yù)測模型是基于樣本節(jié)點信息和預(yù)先確定的樣本節(jié)點之間的關(guān)系類型向量標(biāo)簽進(jìn)行訓(xùn)練后得到的,訓(xùn)練中的樣本學(xué)者節(jié)點和樣本論文節(jié)點的特征向量分別由學(xué)者個人信息特征加隨機(jī)附加特征構(gòu)成和論文標(biāo)題信息特征加論文摘要信息特征構(gòu)成。本發(fā)明實施例提供的方法和裝置,實現(xiàn)了考慮論文語義信息而提高學(xué)術(shù)關(guān)系預(yù)測準(zhǔn)確率低并使能挖掘?qū)W術(shù)關(guān)系種類更多。
技術(shù)領(lǐng)域
本發(fā)明涉及學(xué)術(shù)關(guān)系預(yù)測技術(shù)領(lǐng)域,尤其涉及一種基于引入語義信息的神經(jīng)網(wǎng)絡(luò)的學(xué)術(shù)關(guān)系預(yù)測方法和裝置。
背景技術(shù)
近年來,隨著移動互聯(lián)網(wǎng)的普及和信息來源的豐富,存儲在互聯(lián)網(wǎng)上的非結(jié)構(gòu)化信息呈現(xiàn)出指數(shù)級的增長趨勢。由于人們很難從繁雜且數(shù)量巨大的非結(jié)構(gòu)化信息中高效地提取所需需要的結(jié)構(gòu)化信息,網(wǎng)絡(luò)信息挖掘的相關(guān)研究應(yīng)運而生。許多社會生活中的實際應(yīng)用場景,例如說高分子化合物、交通道路網(wǎng)絡(luò)、學(xué)術(shù)合作網(wǎng)絡(luò)、生物信息、社交媒體網(wǎng)絡(luò)等等,都可以通過一定手段建模為圖。
通過將實體(節(jié)點)間的交互建模為圖,研究者將同構(gòu)圖分析理論進(jìn)一步擴(kuò)展、與深度學(xué)習(xí)和網(wǎng)絡(luò)嵌入表示相融合,將圖神經(jīng)網(wǎng)絡(luò)應(yīng)用到復(fù)雜圖的分析任務(wù)中,如節(jié)點推薦、節(jié)點分類、鏈接預(yù)測等,從而挖掘數(shù)據(jù)背后隱藏的信息。其中,推薦系統(tǒng)已在電子商務(wù)平臺(如亞馬遜、淘寶等)、社交媒體(如臉書、推特、微博等)、合作者與論文推薦(谷歌學(xué)術(shù)、DBLP等)、新聞銷售平臺(今日頭條等)、娛樂平臺(如IMDb、爛番茄、豆瓣等)和生活服務(wù)平臺(如Yelp、大眾點評等)起著重要的作用。
影響力最廣泛的異構(gòu)學(xué)者信息網(wǎng)絡(luò)模型是元路徑模型,它包含三種類型的信息實體:論文、場所和作者。對于每篇論文,它都有指向一組作者和一個地點的鏈接,這些鏈接屬于一組鏈接類型。為了在復(fù)雜的異構(gòu)信息網(wǎng)絡(luò)中準(zhǔn)確地建模對象鏈接的不同類型,提出了元級別(即模式級)的規(guī)范化的網(wǎng)絡(luò)描述方法。表1位元路徑示意表格,如表1所示,作者可以通過元路徑“Author-Paper-Author”(APA)路徑、“Author-Paper-Venue-Paper-Author”(APVPA)等路徑進(jìn)行連接。此外,元路徑還可以連接不同類型的對象:如通過將作者和會議或期刊由APV路徑產(chǎn)生關(guān)聯(lián),表明作者在會議或期刊上發(fā)表論文。
表1元路徑示意表格
然而元路徑由于需要人工定義全部路徑,需要耗費的前期處理時間長,而且模型的泛化能力較差。近年來,隨著深度學(xué)習(xí)和圖卷積神經(jīng)網(wǎng)絡(luò)的成功,出現(xiàn)了“Heterogeneousgraph transformer”模型(異質(zhì)圖轉(zhuǎn)換器模型,HGT模型)。它是一種基于注意力機(jī)制、消息傳遞和聚合的圖神經(jīng)網(wǎng)絡(luò)模型,對源節(jié)點的信息進(jìn)行聚合,得到目標(biāo)節(jié)點的上下文表示。
現(xiàn)有技術(shù)中的元路徑模型和HGT模型都有如下三點缺陷:
1、因為使用了龐大的深度學(xué)習(xí)模型,所以往往模型復(fù)雜度高、參數(shù)多、對計算力要求高、訓(xùn)練時間長;
2、需要人為手動定義元路徑,勞動密集,花費大量時間精力,且定義的元路徑難以做到全覆蓋;
3、只是簡單地區(qū)分各種類型的節(jié)點的鏈路,均未考慮到文章語義內(nèi)容信息能從另一個角度為模型提供豐富的內(nèi)涵。
因此,如何避免現(xiàn)有的基于神經(jīng)網(wǎng)絡(luò)的學(xué)術(shù)關(guān)系預(yù)測方法中預(yù)測模型不能考慮論文語義信息而造成的學(xué)術(shù)關(guān)系預(yù)測準(zhǔn)確率低和能挖掘的關(guān)系種類少,仍然是本領(lǐng)域技術(shù)人員亟待解決的問題。
發(fā)明內(nèi)容
本發(fā)明實施例提供一種基于引入語義信息的神經(jīng)網(wǎng)絡(luò)的學(xué)術(shù)關(guān)系預(yù)測方法和裝置,用以解決現(xiàn)有技術(shù)中基于神經(jīng)網(wǎng)絡(luò)的學(xué)術(shù)關(guān)系預(yù)測方法的預(yù)測模型不能考慮論文語義信息而造成的學(xué)術(shù)關(guān)系預(yù)測準(zhǔn)確率低和能挖掘的關(guān)系種類少的問題。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué),未經(jīng)清華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011052521.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





