[發(fā)明專利]一種基于數(shù)字人文知識(shí)圖譜的搜索推薦方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110515371.3 | 申請(qǐng)日: | 2021-05-12 |
| 公開(公告)號(hào): | CN113190593A | 公開(公告)日: | 2021-07-30 |
| 發(fā)明(設(shè)計(jì))人: | 梅楚璇;呂強(qiáng);徐永潛;譚超;宋彬;申強(qiáng)賓;印東敏;蔡鄖;尹青云 | 申請(qǐng)(專利權(quán))人: | 《中國學(xué)術(shù)期刊(光盤版)》電子雜志社有限公司 |
| 主分類號(hào): | G06F16/2457 | 分類號(hào): | G06F16/2457;G06F16/28;G06F40/295 |
| 代理公司: | 北京天奇智新知識(shí)產(chǎn)權(quán)代理有限公司 11340 | 代理人: | 陳新勝 |
| 地址: | 100084 北京市海淀區(qū)清華*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 數(shù)字 人文 知識(shí) 圖譜 搜索 推薦 方法 | ||
1.一種基于數(shù)字人文知識(shí)圖譜的搜索推薦方法,其特征在于,所述方法包括以下步驟:
步驟A構(gòu)建數(shù)字人文知識(shí)圖譜;
步驟B設(shè)置搜索屬性并創(chuàng)建索引,搜索實(shí)體;
步驟C推薦和用戶所選擇的實(shí)體為同類型的相似實(shí)體;
步驟D根據(jù)用戶的搜索記錄用RippleNet模型訓(xùn)練數(shù)據(jù),模擬出用戶在知識(shí)圖譜上的興趣傳播途徑,將預(yù)測(cè)值較高的實(shí)體作為用戶的推薦實(shí)體;
步驟E將推薦的同類型實(shí)體、學(xué)習(xí)用戶的搜索記錄預(yù)測(cè)出的用戶可能感興趣的實(shí)體返回給用戶。
2.如權(quán)利要求1所述的基于數(shù)字人文知識(shí)圖譜的搜索推薦方法,其特征在于,所述步驟A包括:
定義數(shù)字人文知識(shí)圖譜框架,分析數(shù)字人文領(lǐng)域的研究方向,將圖譜中涉及的實(shí)體進(jìn)行分類;
通過資料庫數(shù)據(jù)抽取所需信息,并整理得到分類實(shí)體表及實(shí)體關(guān)系表,存入數(shù)據(jù)庫;
根據(jù)圖譜框架和數(shù)據(jù),通過圖形數(shù)據(jù)庫構(gòu)建數(shù)字人文知識(shí)圖譜。
3.如權(quán)利要求2所述的基于數(shù)字人文知識(shí)圖譜的搜索推薦方法,其特征在于,圖譜中涉及的實(shí)體包括人物、事件、地區(qū)、官職、朝代五大類。
4.如權(quán)利要求1所述的基于數(shù)字人文知識(shí)圖譜的搜索推薦方法,其特征在于,所述步驟C中通過推薦算法推薦與用戶選擇的實(shí)體即中心實(shí)體同類型的實(shí)體;所述推薦算法具體包括:
1)選擇知識(shí)圖譜中距離中心實(shí)體小于等于k跳的同類型實(shí)體,為候選實(shí)體;
2)采用路徑搜索算法,對(duì)每個(gè)候選實(shí)體,分析其與中心實(shí)體在圖譜中的可能路徑,并計(jì)算候選實(shí)體與中心實(shí)體的關(guān)聯(lián)性,計(jì)算公式為:
其中,n為路徑的總數(shù),m為第i條路徑上除去源節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)的節(jié)點(diǎn)數(shù)目,wij為第i條路徑中第j個(gè)節(jié)點(diǎn)的權(quán)重值,權(quán)重值與節(jié)點(diǎn)的類型相關(guān),由上述公式可知兩節(jié)點(diǎn)之間的路徑越短,路徑數(shù)量越多,節(jié)點(diǎn)的關(guān)聯(lián)性越大;
3)根據(jù)上述2)中計(jì)算的關(guān)聯(lián)性,推薦關(guān)聯(lián)度較高的實(shí)體為用戶可能感興趣的同類型實(shí)體。
5.如權(quán)利要求1所述的基于數(shù)字人文知識(shí)圖譜的搜索推薦方法,其特征在于,所述步驟D具體包括:
1)將用戶的搜索記錄構(gòu)建初始的實(shí)體集,生成訓(xùn)練數(shù)據(jù);
2)初始化算法模塊中嵌入層;
3)將初始實(shí)體集在知識(shí)圖譜中向外擴(kuò)展一層,計(jì)算一個(gè)實(shí)體item與初始實(shí)體、關(guān)系內(nèi)積的相似度,相似度和目標(biāo)實(shí)體加權(quán)求和,得到用戶興趣經(jīng)第一輪擴(kuò)散后的結(jié)果;
4)將第一輪的尾節(jié)點(diǎn)作為頭節(jié)點(diǎn),再向外擴(kuò)展一跳,按照同樣的方法,得到興趣第二輪擴(kuò)散的結(jié)果;
5)擴(kuò)散多次后,將每一輪的計(jì)算結(jié)果累加,得到能表示用戶興趣的嵌入向量,與實(shí)體item向量計(jì)算內(nèi)積后歸一化計(jì)算出用戶對(duì)item的點(diǎn)擊概率。
6.如權(quán)利要求5所述的基于數(shù)字人文知識(shí)圖譜的搜索推薦方法,其特征在于,所述3)中相似度通過計(jì)算實(shí)體item v與圖譜三元組中初始實(shí)體、關(guān)系(h,r)內(nèi)積的相似度并歸一化得到,計(jì)算公式為:
其中,v為待預(yù)測(cè)點(diǎn)擊率的實(shí)體item的嵌入向量,為v的1跳波紋集合,Ri和hi分別是關(guān)系ri和頭實(shí)體hi的嵌入向量,用相似度pi對(duì)t加權(quán)求和,如下式計(jì)算,得到這一層的輸出o,向量可以看出用戶的歷史點(diǎn)擊對(duì)itemv的一階段響應(yīng),其中:
7.如權(quán)利要求5所述的基于數(shù)字人文知識(shí)圖譜的搜索推薦方法,其特征在于,所述5)具體包括:重復(fù)1)到4)過程H次后,將多次興趣擴(kuò)散得到的表示相加得到最終的用戶嵌入向量表示:
此時(shí),可以計(jì)算出實(shí)體itemv的用戶點(diǎn)擊率的預(yù)測(cè)值為:
上述即為RippleNet模型的主要框架,下面定義模型訓(xùn)練時(shí)的優(yōu)化的損失函數(shù),包括真實(shí)的y與RippleNet預(yù)測(cè)值之間的交叉熵?fù)p失,重建的指標(biāo)矩陣與真實(shí)數(shù)據(jù)的誤差,以及正則項(xiàng):
公式中,頭實(shí)體h和尾實(shí)體t用E矩陣統(tǒng)一表示。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于《中國學(xué)術(shù)期刊(光盤版)》電子雜志社有限公司,未經(jīng)《中國學(xué)術(shù)期刊(光盤版)》電子雜志社有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110515371.3/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 使用逆空間濾波的數(shù)字圖像重建
- 數(shù)字版權(quán)管理交易系統(tǒng)
- 一種數(shù)字證書自動(dòng)申請(qǐng)方法和裝置及系統(tǒng)
- 用于數(shù)字記憶練習(xí)的數(shù)學(xué)教具
- 一種數(shù)字種類的確定方法及裝置
- 數(shù)字資產(chǎn)編碼方法
- 數(shù)字證書管理方法及設(shè)備
- 數(shù)字媒體水印處理方法、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 數(shù)字亞克力標(biāo)牌
- 一種基于區(qū)塊鏈的數(shù)字資產(chǎn)交易方法、裝置及存儲(chǔ)介質(zhì)
- 基于本體的知識(shí)地圖繪制系統(tǒng)
- 基于知識(shí)地圖的領(lǐng)域知識(shí)瀏覽方法
- 一種基于知識(shí)本體的知識(shí)體系的建模方法
- 一種知識(shí)工程系統(tǒng)
- 知識(shí)自動(dòng)化系統(tǒng)和方法以及存儲(chǔ)器
- 基于SOLR的知識(shí)管理系統(tǒng)
- 基于知識(shí)節(jié)點(diǎn)所屬度的知識(shí)圖譜構(gòu)建方法和裝置
- 一種基于知識(shí)圖譜的稅務(wù)知識(shí)庫系統(tǒng)
- 一種智聯(lián)網(wǎng)中的網(wǎng)絡(luò)知識(shí)統(tǒng)一表征架構(gòu)及實(shí)現(xiàn)方法
- 知識(shí)點(diǎn)存儲(chǔ)方法、裝置、服務(wù)器及介質(zhì)





