[發(fā)明專利]一種基于多維度特征的新聞推薦方法在審
| 申請(qǐng)?zhí)枺?/td> | 202210025279.3 | 申請(qǐng)日: | 2022-01-11 |
| 公開(公告)號(hào): | CN114357307A | 公開(公告)日: | 2022-04-15 |
| 發(fā)明(設(shè)計(jì))人: | 郭楠;李金輝;高燊;高天寒 | 申請(qǐng)(專利權(quán))人: | 東北大學(xué) |
| 主分類號(hào): | G06F16/9535 | 分類號(hào): | G06F16/9535;G06F16/9536;G06Q50/00;G06F16/28 |
| 代理公司: | 沈陽(yáng)東大知識(shí)產(chǎn)權(quán)代理有限公司 21109 | 代理人: | 李在川 |
| 地址: | 110819 遼寧*** | 國(guó)省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 多維 特征 新聞 推薦 方法 | ||
本發(fā)明公開一種基于多維度特征的新聞推薦方法,方法首先構(gòu)建新聞特征提取器,提取新聞特征ra,包括新聞?lì)悇eID的特征、新聞標(biāo)題文本聚類的類別特征、新聞標(biāo)題特征、圖像特征;然后構(gòu)建用戶特征處理器,將每篇新聞經(jīng)過(guò)注意力網(wǎng)絡(luò)得到的注意力權(quán)重乘以各自的新聞特征,得到用戶特征u,并將用戶特征u和新聞特征ra相乘得到每篇新聞的點(diǎn)擊概率得分接著構(gòu)造訓(xùn)練集,定義點(diǎn)擊率損失函數(shù),并將多個(gè)用戶的交互記錄輸入深度學(xué)習(xí)的batch中進(jìn)行深度學(xué)習(xí)模型的訓(xùn)練;最后采用訓(xùn)練好的深度學(xué)習(xí)模型,進(jìn)行首頁(yè)推薦或個(gè)性化推薦。本發(fā)明使用了多種特征去提升新聞推薦的精確性和多樣性。
技術(shù)領(lǐng)域
本發(fā)明涉及新聞推薦技術(shù)領(lǐng)域,尤其涉及一種基于多維度特征的新聞推薦方法。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和人們生活需求的提高,閱讀新聞的用戶數(shù)量一直在增加,人們對(duì)新聞?lì)恆pp的推薦效果也有著越來(lái)越高的要求。
專利CN102929928A提出,使用標(biāo)題和正文內(nèi)容去得到主題特征向量,然后根據(jù)新聞的主題特征向量和用戶行為數(shù)據(jù)去構(gòu)造新聞模型和用戶模型,然后在根據(jù)時(shí)間特征去進(jìn)行個(gè)性化推薦。雖然一定程度上考慮了多種特征,如標(biāo)題、正文、時(shí)間特征,但在模型中真正用于特征抽取的只有標(biāo)題和正文,并未真正的體現(xiàn)出多維,提出的時(shí)間特征,也只是用于推薦時(shí)的一種策略篩選,且用戶在點(diǎn)擊新聞時(shí)一般是先看到標(biāo)題,才去看正文的,并未符合人們的閱讀習(xí)慣。
專利CN111061856A提出,從新聞文本中識(shí)別出實(shí)體,將其與知識(shí)圖譜中的實(shí)體相匹配,利用知識(shí)表示學(xué)習(xí)模型得到實(shí)體和關(guān)系的向量表示,用卷積神經(jīng)網(wǎng)絡(luò)融合新聞的詞向量和實(shí)體向量,從中學(xué)習(xí)新聞的特征,以注意力機(jī)制去得到用戶特征,再將候選新聞特征、用戶特征和路徑特征為輸入,使用多層感知機(jī)計(jì)算候選新聞的點(diǎn)擊概率,最終實(shí)現(xiàn)個(gè)性化推薦。該發(fā)明提出的使用知識(shí)圖譜中的實(shí)體和關(guān)系,雖然在AUC和F1上有很好的提升,但是在實(shí)際工程中,并不是所有的新聞app,都會(huì)事先去搭建知識(shí)圖譜,如果知識(shí)圖譜沒有建立或者過(guò)于稀疏,那么推薦效果就會(huì)降低。
由于上述技術(shù)方案均不能滿足人們對(duì)新聞閱讀推薦問題的需求,因此提出一種新的推薦方法是有必要的。
發(fā)明內(nèi)容
針對(duì)上述現(xiàn)有技術(shù)的不足,本發(fā)明提供一種基于多維度特征的新聞推薦方法。
為解決上述技術(shù)問題,本發(fā)明所采取的技術(shù)方案是:一種基于多維度特征的新聞推薦方法,具體過(guò)程如下:
步驟1:構(gòu)建新聞特征提取器,提取新聞特征ra,過(guò)程如下:
步驟1.1:獲取新聞,從新聞標(biāo)題的文本中提取實(shí)體信息和關(guān)系信息,構(gòu)建知識(shí)圖譜;并從構(gòu)建的知識(shí)圖譜中學(xué)習(xí)實(shí)體向量和關(guān)系向量,計(jì)算每個(gè)實(shí)體的上下文向量的平均值,具體過(guò)程如下:
步驟1.1.1:基于命名實(shí)體識(shí)別技術(shù)對(duì)新聞標(biāo)題進(jìn)行實(shí)體抽取,將抽取得到的實(shí)體組合成新聞實(shí)體集合;
步驟1.1.2:將新聞標(biāo)題和對(duì)應(yīng)的實(shí)體輸入到PCNN中進(jìn)行關(guān)系抽取,形成三元組(h,r,t);其中,h為頭部實(shí)體、t為尾部實(shí)體,h和t均來(lái)自新聞實(shí)體集合,r為關(guān)系,由PCNN抽取后得到;
步驟1.1.3:以三元組(h,r,t)為基礎(chǔ)構(gòu)建知識(shí)圖譜;
步驟1.1.4:使用知識(shí)圖譜特征學(xué)習(xí)方法,從構(gòu)建的知識(shí)圖譜中學(xué)習(xí)實(shí)體向量和關(guān)系向量;
步驟1.1.5:提取每個(gè)實(shí)體的上下文信息,即獲取每個(gè)實(shí)體在圖譜中的鄰居,并計(jì)算每個(gè)實(shí)體的上下文向量的平均值。
具體計(jì)算公式如下:
context(e)={ei|(e,r,ei)∈G or(ei∈G)}
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東北大學(xué),未經(jīng)東北大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210025279.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 多維、多元生命水及其用途
- 一種多維地址域名解析的方法和裝置以及系統(tǒng)
- 創(chuàng)建多維操作系統(tǒng)的方法和裝置
- 一種對(duì)多維地址數(shù)據(jù)進(jìn)行解析的方法和裝置以及系統(tǒng)
- 一種分組的交付和路由選擇的方法和裝置以及系統(tǒng)
- 多維碼處理方法、發(fā)送端、接收端和系統(tǒng)
- 多維度信息展示方法及裝置
- 一種屏幕可視化方法、裝置、電子設(shè)備及介質(zhì)
- 多維數(shù)據(jù)集的生成方法及裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 多維時(shí)空譜數(shù)據(jù)融合方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)





