[發明專利]一種基于領域知識圖譜的內容推薦方法在審
| 申請號: | 202011435336.2 | 申請日: | 2020-12-10 |
| 公開(公告)號: | CN112559764A | 公開(公告)日: | 2021-03-26 |
| 發明(設計)人: | 鄭晨燁;孫劍;喬勝勇 | 申請(專利權)人: | 北京中視廣信科技有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/9535;G06N3/04;G06K9/62 |
| 代理公司: | 北京市盛峰律師事務所 11337 | 代理人: | 席小東 |
| 地址: | 100038 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 領域 知識 圖譜 內容 推薦 方法 | ||
1.一種基于領域知識圖譜的內容推薦方法,其特征在于,包括以下步驟:
步驟1,構建知識圖譜G(V,E);其中,V為知識圖譜中所有實體的集合;知識圖譜中每個實體用v表示;E為知識圖譜中所有實體與實體之間關系的集合;
步驟2,使用圖表示學習模型GraphSAGE,對知識圖譜G(V,E)中的實體進行學習,每個實體v均學習得到對應的一個低維稠密的實體表示向量hv,其中,hv∈H,H為所有實體表示向量集合;實體表示向量hv包含了實體v的鄰域信息,知識圖譜中存在路徑的兩個實體的實體表示向量相似度更大;
步驟3,建立內容庫C;內容庫C包括NC個內容c;
步驟4,對于內容庫C中的每個內容ci,通過實體鏈接方法,建立內容ci與知識圖譜G(V,E)中實體之間的關系,得到內容-實體映射表;其中,內容ci映射到知識圖譜G(V,E)中多個實體,多個實體形成實體集合;
步驟5,將用戶歷史點擊內容輸入基于實體表示的候選內容生成模型,生成用戶可能感興趣的第一候選內容;
步驟5.1,內容庫C中的每個內容ci,映射到對應的一個實體集合;實體集合包括L個實體;實體集合中的每個實體對應一個實體表示向量,因此,共得到L個內容ci相關的實體表示向量,分別為:形成實體表示向量集合
內容ci和相關的實體表示向量集合表示為:ci:其中,
步驟5.2,預設置實體表示向量集合包括的實體表示向量的最大數量L0,即:實體表示向量集合長度的最大數量;
對于內容庫C中的每個內容ci,判斷步驟5.1得到的實體表示向量集合長度是否達到最大數量L0,如果沒有達到,則在末位補0,從而使每個內容ci對應的實體表示向量集合的長度相等,均為L0;
步驟5.3,對于內容庫C中的每個內容ci,生成對應的內容特征向量ri,方法為:
對內容ci對應的實體表示向量集合中的各個實體表示向量,即:進行平均加權,得到對應的內容特征向量ri,其中,采用的公式為:內容特征向量ri保存了內容ci相關的所有實體信息;
步驟5.4,內容相似性分析:
使用KD樹的最近鄰搜索算法,在內容庫C中對內容特征向量ri進行最近鄰搜索,得到與內容ci∈C最相似的N個相似內容即:
步驟5.5,根據用戶歷史點擊內容產生候選內容:
用戶u的歷史點擊內容序列具有時序性,表示為其中,表示用戶u點擊的第i個內容,K為用戶u最大歷史點擊內容數量;將每個內容對應的最相似的N個相似內容,作為用戶u可能感興趣的第一候選內容cand1(u),即
步驟6,基于知識圖譜興趣采樣的內容表示學習模型,生成內容表示向量;再根據內容表示向量,得到用戶對內容的點擊概率分布;
步驟6.1,構造訓練樣本:
用戶u的歷史點擊內容序列令k依次等于1,2,...,K-1;對于每個k值,均按序截取用戶u的歷史點擊內容序列的前k個內容作為一個樣本,然后在該樣本中進行(K-k)次重復采樣,形成長度為K的訓練樣本;
該樣本對應的標簽為多分類標簽,該多分類標簽由兩部分組成:
(1)用戶u的歷史點擊內容序列中第k+1個內容作為樣本多分類標簽中的一個標簽,即,
(2)在內容庫C中對用戶未點擊過的內容進行負采樣,得到Knegtive個負采樣內容,即:作為負采樣標簽;
多分類標簽表示為:
步驟6.2,構造基于知識圖譜興趣采樣的內容表示學習模型;所述基于知識圖譜興趣采樣的內容表示學習模型,包括實體卷積網絡層、全連接神經網絡層和softmax層;
使用正態分布對基于知識圖譜興趣采樣的內容表示學習模型的模型參數進行初始化;模型參數包括實體卷積層參數、全連接層參數以及softmax層參數;其中,softmax層參數的意義為融合了用戶興趣的內容表示向量,NC為內容庫中的內容總數,C0為內容表示向量的維度;
向基于知識圖譜興趣采樣的內容表示學習模型輸入用戶內容偏好特征、用戶直接興趣偏好特征和用戶間接興趣偏好特征,模型使用交叉熵作為模型訓練的損失函數,模型輸出用戶對內容庫中各個內容的用戶點擊概率分布;具體方法為:
1)獲取用戶內容偏好特征Rc:
將用戶u的歷史點擊內容序列轉化為初始的內容表示向量序列其中,內容表示向量wi∈Wsoftmax;對K個內容表示向量進行加權平均計算,得到用戶內容偏好特征Rc;
2)獲取用戶直接興趣偏好特征RE:
對于用戶u的歷史點擊內容序列中的每個內容根據步驟4得到的內容-實體映射表,映射得到的實體集合稱為用戶直接興趣實體集合ME∈RK×L×D;其中,D為內容映射的每個實體的實體表示向量的維度;
將ME作為實體卷積網絡的輸入,實體卷積網絡分別使用d個形狀為[1,D,K]的卷積核和d個形狀為[2,D,K]的卷積核,對ME進行卷積計算,最后,將不同卷積核的計算結果進行拼接,得到用戶直接興趣偏好特征RE∈R1×2d;
3)獲取用戶間接興趣偏好特征RE′:
3.1,基于知識圖譜的用戶興趣采樣,得到與直接興趣實體v關聯的N個間接興趣實體:
將用戶u的歷史點擊內容序列中的每個內容映射到的實體稱為直接興趣實體v,在知識圖譜G(V,E)中,對直接興趣實體v進行長度為L的N次隨機游走采樣,采樣結果表示為n∈N為當前隨機游走的次數;每個采樣結果稱為間接興趣實體;因此,得到與直接興趣實體v關聯的N個間接興趣實體,完成對用戶潛在興趣的挖掘和擴展;
其中,隨機游走采樣方法為:通過知識圖譜G(V,E)中實體間關系,計算實體之間的轉移概率,第1實體到第2實體的轉移概率表示為p12=1/N1,其中,N1為第1實體的一階鄰域內的實體數量;
基于實體之間的轉移概率,在知識圖譜G(V,E)中進行隨機游走;
3.2,通過聚合函數對N個間接興趣實體進行聚合,得到直接興趣實體v的間接興趣偏好特征RE′:
聚合函數表示為其中,為第n次隨機游走時,第l個被采樣到的實體表示向量;聚合函數的目的是將直接興趣實體v的N個間接興趣實體進行聚合,將用戶點擊的內容轉化為間接興趣表示向量ME′∈RK×L×D,設計實體卷積網絡,將ME′作為實體卷積網絡的輸入,實體卷積網絡分別使用d個形狀為[1,D,K]的卷積核和d個形狀為[2,D,K]的卷積核對ME′進行卷積計算,然后,將不同卷積核的計算結果進行拼接,得到間接興趣偏好特征RE′∈R1×2d;
4)將用戶內容偏好特征Rc、用戶直接興趣偏好特征RE和用戶間接興趣偏好特征RE′按照(Rc,RE,RE′)的順序進行拼接,然后,輸入到全連接神經網絡層中,全連接神經網絡層的輸出為表示用戶整體偏好的用戶表示向量U;將用戶表示向量U輸入到softmax層,通過softmax層計算多標簽分類的概率分布,即計算用戶對內容庫中各個內容的點擊概率分布,用戶對內容庫中每個內容ci的點擊概率分布稱為內容表示向量Ri;
步驟7,基于內容表示向量的候選內容生成模型,使用KD樹的最近鄰搜索算法,對每個內容表示向量Ri進行最近鄰計算,得到與內容ci∈C最相似的Ni個內容;
將與內容ci∈C最相似的Ni個內容,作為用戶可能感興趣的第二候選內容;
步驟8,將步驟5得到的用戶可能感興趣的第一候選內容和步驟7得到的用戶可能感興趣的第二候選內容中的各個內容進行排序,得到內容推薦列表。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中視廣信科技有限公司,未經北京中視廣信科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011435336.2/1.html,轉載請聲明來源鉆瓜專利網。





