[發明專利]一種基于知識感知的新聞推薦方法有效
| 申請號: | 201911334781.7 | 申請日: | 2019-12-23 |
| 公開(公告)號: | CN111061856B | 公開(公告)日: | 2022-05-27 |
| 發明(設計)人: | 劉瓊昕;覃明帥;宋祥;王佳升;徐建祥;盧士帥 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06F16/335 | 分類號: | G06F16/335;G06F16/36;G06F16/9535;G06N3/04;G06N3/08 |
| 代理公司: | 北京正陽理工知識產權代理事務所(普通合伙) 11639 | 代理人: | 王民盛 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 知識 感知 新聞 推薦 方法 | ||
1.一種基于知識感知的新聞推薦方法,其特征在于,包括以下步驟:
首先,從新聞文本中識別出實體,將其與知識圖譜中的實體相匹配,利用知識表示學習模型得到實體和關系的向量表示;其中,提取新聞文本中實體知識信息的方法為:
步驟1:使用實體鏈接技術,將新聞文本中的單詞與知識圖譜中的實體進行鏈接并消歧,得到新聞實體集合;
步驟2:基于新聞實體集合,從原始的知識圖譜中構造出一個知識圖譜子圖,并從原圖中抽取所有實體之間的邊;將該子圖擴展一跳,即,引入所有和這些實體距離為1的實體及相關的邊;
步驟3:使用知識圖譜特征學習方法,從擴展的知識子圖中,學習實體向量和關系向量;
步驟4:為每個實體提取其額外的上下文信息,一個實體e的上下文,是指它在知識圖譜中的鄰居的集合,即:
context(e)={e′|(e,r,e′)∈G∨(e′,r,e)∈G} (1)
其中,e、e′均表示實體,r表示關系,G表示知識圖譜;
將實體e的上下文向量定義為它的上下文實體的向量的平均值:
其中,ei是實體e的上下文實體集合context(e)的第i個實體的向量表示;
然后,使用一種知識感知的深度網絡DKPN建立推薦模型,具體地,用一個卷積神經網絡來融合新聞的詞向量和實體向量,從中學習新聞的綜合特征;包括以下步驟:
步驟S1:構建新聞特征;
具體包括如下步驟:
步驟S1.1:對于一個新聞標題[w1,w2,...,wn],將每個單詞wi與其詞向量wi、實體向量ei以及實體上下文向量一一對應,若沒有相應的實體向量和實體上下文向量,則用零向量替代;同時,為解決詞向量和實體向量的兼容性問題,引入映射函數g():
g(e)=tanh(Me+b) (3)
其中,M∈Rd×k是一個轉換矩陣,b為偏置常量,該函數將k維的實體向量和實體上下文向量映射到d維的向量空間中,與詞向量一致;將詞向量、映射后實體向量和映射后的實體上下文向量堆疊后,得到三通道輸入W:
其中,Rd×n×3表示d×n×3的實張量空間,R為實數空間;
步驟S1.2:用一個知識感知的卷積神經網絡,從W中提取新聞特征:
首先,通過卷積核h∈Rd×l×3提取卷積特征,進行卷積操作后得到相應特征
其中,*為卷積操作,b為偏置常量,f為非線性映射函數,Wi:i+l-1表示卷積核h的窗口所覆蓋的部分輸入;卷積核h對整個W進行卷積操作后可得一組特征
然后,對ch進行最大池化操作,從ch的分量中選取最大值作為高層特征:
對于包含m個卷積核的卷積神經網絡,新聞標題t的最終特征為:
步驟S2:構建實體路徑特征;
對于知識圖譜中的一條包含L個實體的路徑其中el是路徑中的第l個實體,關系rl在路徑中連接實體el和實體el+1,實體el和關系rl對應的向量分別記為el∈Rk和rl∈Rk;利用長短期記憶網絡LSTM提取知識圖譜中指定的兩個實體之間的路徑特征,LSTM接受一個向量序列作為輸入;對于路徑中的每個實體el,按照下式構造LSTM的第l個輸入xl:
其中,為連接運算符,將實體向量el和關系向量rl連接為一個2d維的向量xl;對于最后一個實體向量eL,用一個零向量與其相連接;LSTM中間層各項變量計算如下:
其中,cl∈Rd′和zl∈Rd′分別為細胞狀態以及當前細胞要更新的信息,il、ol和fl分別為輸入門、輸出門和遺忘門;Wz∈Rd'×2d、Wf∈Rd'×2d、Wi∈Rd'×2d、Wo∈Rd'×2d和Wh∈Rd′×d′為映射矩陣,d′為隱含層的單元數量,即狀態向量的維度;bz、bf、bi和bo為偏置向量;σ為Sigmoid函數,⊙為逐元素的乘法運算;
用表示LSTM網絡,LSTM的最后一層輸出hL作為整個路徑的特征向量表示,即
步驟S3:構建用戶興趣特征;
設用戶u的新聞標題點擊記錄為相應的新聞特征向量為其中,Nu為用戶u的點擊總數;用一個注意力網絡,根據用戶點擊歷史和不同的候選新聞,動態構建用戶特征;給定一個候選新聞tj,為了衡量用戶u點擊過的新聞對tj的影響度,考慮兩方面因素,一方面是和tj的特征向量和另一方面是中的實體和tj中的實體之間的路徑特征;給定和tj之間的條實體路徑路徑特征記為
將新聞特征候選新聞特征以及路徑特征拼接后,輸入到一個全連接注意力網絡中,輸出對tj的影響權重,對權重進行歸一化后得到影響因子
在預測用戶u是否會點擊新聞tj時,用戶u的興趣特征qu計算如下:
則總的路徑特征為:
步驟S4:構建預測用戶點擊概率
基于用戶興趣特征qu、候選新聞特征和路徑特征使用一個全連接網絡來預測用戶u點擊新聞tj的概率:
即為模型預測函數;
步驟S5:根據訓練集數據和損失函數,對模型參數進行訓練更新;
其中,損失函數定義如下:
其中,(u,t)是用戶-候選新聞對,是正樣本集,是負樣本集;
訓練數據處理完畢后,輸入測試集數據,用來測試模型效果;若效果指標不再提高或達到要求,停止迭代,保存結果;
對于每一個候選新聞,基于用戶的瀏覽歷史與候選新聞之間的相關性,使用一個注意力網絡動態地構建用戶特征;同時,考慮已點擊的新聞中的實體與候選新聞中的實體之間的路徑,利用長短期記憶網絡來從路徑中生成路徑特征;
最后,以候選新聞特征、用戶特征和路徑特征為輸入,用一個多層感知機來計算用戶點擊候選新聞的概率,據此向用戶進行新聞推薦。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911334781.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種新型強化復合相變流體及其制備方法和應用
- 下一篇:一種防變形掛具





