[發(fā)明專利]基于RNN、注意力機(jī)制的新聞推薦方法及主題表征方法有效
| 申請(qǐng)?zhí)枺?/td> | 201811245204.6 | 申請(qǐng)日: | 2018-10-24 |
| 公開(kāi)(公告)號(hào): | CN109492157B | 公開(kāi)(公告)日: | 2021-08-31 |
| 發(fā)明(設(shè)計(jì))人: | 緱錦;李威;王成;張璐 | 申請(qǐng)(專利權(quán))人: | 華僑大學(xué) |
| 主分類號(hào): | G06F16/9535 | 分類號(hào): | G06F16/9535;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 廈門市首創(chuàng)君合專利事務(wù)所有限公司 35204 | 代理人: | 張松亭;李艾華 |
| 地址: | 362000 福建省*** | 國(guó)省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 rnn 注意力 機(jī)制 新聞 推薦 方法 主題 表征 | ||
本發(fā)明涉及一種基于RNN、注意力機(jī)制的新聞推薦方法及主題表征方法,將傳統(tǒng)的主題模型與神經(jīng)網(wǎng)絡(luò)詞向量結(jié)合,可有效提升新聞內(nèi)容文本語(yǔ)義提取與表示的準(zhǔn)確性;利用RNN網(wǎng)絡(luò)刻畫用戶新聞瀏覽的序列性特征,可極大提升個(gè)性化新聞推薦內(nèi)容的時(shí)效性;利用注意力機(jī)制區(qū)分不同新聞對(duì)推薦預(yù)測(cè)的影響力權(quán)重,可捕捉到用戶興趣遷移,提升個(gè)性化新聞推薦內(nèi)容準(zhǔn)確性與新穎性;最后,結(jié)合DBSCAN密度聚類算法的注意力機(jī)制,通過(guò)密度聚類對(duì)新舊話題進(jìn)行啟發(fā)式發(fā)現(xiàn),利用主題聚類結(jié)果動(dòng)態(tài)計(jì)算新聞的影響力權(quán)重,提升推薦話題的新穎性。
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)挖掘和神經(jīng)網(wǎng)絡(luò)的技術(shù)領(lǐng)域,具體涉及一種基于RNN、注意力機(jī)制的新聞推薦方法及主題表征方法。
背景技術(shù)
隨著信息技術(shù)和互聯(lián)網(wǎng)的發(fā)展,人們逐漸從信息匱乏的時(shí)代走入了信息過(guò)載的時(shí)代。作為大眾獲取各類信息的主要途徑,各色新聞網(wǎng)站每天充斥著海量的信息。如何去篩選和過(guò)濾新聞內(nèi)容,如何抓住不同用戶的個(gè)性化需求,如何能跟進(jìn)用戶閱讀興趣的遷移,如何為用戶提供新穎、準(zhǔn)確、時(shí)效性強(qiáng)的個(gè)性化推薦已經(jīng)成為新聞網(wǎng)站面對(duì)的主要挑戰(zhàn)。在這種需求背景下,個(gè)性化新聞推薦系統(tǒng)應(yīng)運(yùn)而生。
目前新聞推薦系統(tǒng)主要有四種推薦策略:
第一種是基于熱門推薦。這是最常見(jiàn)的推薦策略。系統(tǒng)會(huì)設(shè)置一個(gè)固定時(shí)間窗口,然后統(tǒng)計(jì)過(guò)去時(shí)間窗口長(zhǎng)度的時(shí)間內(nèi)所有新聞的點(diǎn)擊量,對(duì)點(diǎn)擊量進(jìn)行排序,最后將排序結(jié)果推薦給用戶。
熱門推薦策略,優(yōu)點(diǎn):可以及時(shí)推薦全網(wǎng)熱度高的新聞,實(shí)時(shí)性強(qiáng),實(shí)現(xiàn)簡(jiǎn)單,推薦的新聞比較主流。缺點(diǎn):無(wú)法區(qū)分不同用戶的個(gè)性化閱讀興趣的需求,推薦的內(nèi)容需要用戶自行過(guò)濾,無(wú)法刻畫用戶的興趣遷移。
第二種是基于協(xié)同過(guò)濾算法推薦。基于協(xié)同過(guò)濾算法是一種使用非常廣泛的推薦算法,其主要又可以細(xì)分為:(1)基于用戶的協(xié)同過(guò)濾推薦(UserCF),根據(jù)用戶的瀏覽行為數(shù)據(jù),找到和他興趣相似的其他用戶,找到其他用戶喜歡的新聞中該用戶沒(méi)有瀏覽過(guò)的推薦給目標(biāo)用戶;(2)基于物品的協(xié)同過(guò)濾推薦(ItemCF),先通過(guò)兩個(gè)新聞被用戶同時(shí)瀏覽的行為統(tǒng)計(jì),計(jì)算新聞之間的相似度,給用戶推薦和他之前瀏覽的新聞相似度較高的新聞。
基于用戶的協(xié)同過(guò)濾推薦算法,優(yōu)點(diǎn):在數(shù)據(jù)集比較完善,內(nèi)容比較豐富的情況下,不用對(duì)新聞內(nèi)容具體挖掘,就能根據(jù)用戶之間隱含的興趣相關(guān)性,來(lái)做到較為準(zhǔn)確的推薦。缺點(diǎn):用戶之間還是有明顯的差異性的,當(dāng)系統(tǒng)內(nèi)用戶數(shù)量較少時(shí),很難找到與該用戶特別相近的用戶。而隨著用戶數(shù)量增多,維護(hù)用戶關(guān)聯(lián)相似矩陣的維護(hù)成本又很高。
基于物品的協(xié)同過(guò)濾推薦算法,優(yōu)點(diǎn):新聞之間的相似性基本穩(wěn)定,可以進(jìn)行離線計(jì)算,可以根據(jù)用戶的瀏覽情況及時(shí)地更新推薦列表。缺點(diǎn):沒(méi)有考慮用戶之間興趣的差異性,容易重復(fù)推薦太多相似的新聞,無(wú)法捕捉用戶的興趣遷移。隨著新聞數(shù)量增多,維護(hù)新聞相似矩陣的成本也很高。
第三種是隱語(yǔ)義模型LFM(latent factor model)。不同于協(xié)同過(guò)濾直接尋找相似用戶和相似新聞,LFM是通過(guò)隱含特征聯(lián)系用戶興趣和新聞,對(duì)于某個(gè)用戶,首先要得到他的興趣分類,然后從新聞分類中挑選他可能喜歡的新聞。具體的步驟為:采用了基于用戶閱讀行為統(tǒng)計(jì)的自動(dòng)聚類,以此得到各新聞所屬的分類;然后根據(jù)用戶瀏覽各類別新聞的頻率來(lái)計(jì)算用戶感興趣的新聞和感興趣的程度。最后根據(jù)用戶喜歡的分類,給他推薦可能喜歡的新聞。
第四種是基于內(nèi)容的推薦算法。不同于以上算法只考慮到用戶和用戶的瀏覽行為。基于內(nèi)容的推薦算法,可以根據(jù)用戶過(guò)去瀏覽的新聞的內(nèi)容,構(gòu)建“用戶畫像”,最后根據(jù)“用戶畫像”生成新聞推薦列表。基于內(nèi)容的推薦系統(tǒng)具體過(guò)程一般包括以下三步:
(1)物品表示(Item Representation):為每個(gè)item抽取出一些特征(也就是item的content)來(lái)表示此item;
(2)特征學(xué)習(xí)(Profile Learning):利用一個(gè)用戶過(guò)去喜歡(及不喜歡)的item的特征數(shù)據(jù),來(lái)學(xué)習(xí)出此用戶的喜好特征(profile);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華僑大學(xué),未經(jīng)華僑大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811245204.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 用于文本到語(yǔ)音的超結(jié)構(gòu)循環(huán)神經(jīng)網(wǎng)絡(luò)
- 基于先進(jìn)的遞歸神經(jīng)網(wǎng)絡(luò)的“字母到聲音”
- 一種基于分層循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的語(yǔ)音識(shí)別方法
- 模式識(shí)別裝置以及模式識(shí)別方法
- 音頻事件檢測(cè)方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種城市交通流量預(yù)測(cè)方法、系統(tǒng)及電子設(shè)備
- 循環(huán)神經(jīng)網(wǎng)絡(luò)訓(xùn)練優(yōu)化方法、設(shè)備、系統(tǒng)及可讀存儲(chǔ)介質(zhì)
- 一種基于RNN的量子計(jì)算方法和裝置
- 用于水質(zhì)參數(shù)預(yù)測(cè)的聯(lián)合神經(jīng)網(wǎng)絡(luò)模型及其訓(xùn)練方法
- 基于RNN的降噪處理方法及系統(tǒng)
- 基于粒子濾波視覺(jué)注意力模型的運(yùn)動(dòng)目標(biāo)檢測(cè)方法
- 一種評(píng)測(cè)注意力狀態(tài)的方法及裝置
- 注意力測(cè)評(píng)方法、系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 兒童注意力評(píng)估系統(tǒng)及其方法
- 一種注意力檢測(cè)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種注意力識(shí)別方法和裝置
- 一種可靠的用戶注意力監(jiān)測(cè)估計(jì)表示模型
- 注意力特征圖獲取方法及裝置、目標(biāo)檢測(cè)的方法及裝置
- 基于通道增強(qiáng)的雙注意力生成對(duì)抗網(wǎng)絡(luò)及圖像生成方法
- 一種文本情感分析模型的優(yōu)化方法及裝置
- 一種機(jī)制蛋的制造方法
- 手機(jī)制式的校準(zhǔn)方法、系統(tǒng)及手機(jī)檢測(cè)設(shè)備
- 一種考慮激勵(lì)機(jī)制電量電價(jià)彈性矩陣的耗電量估測(cè)方法
- 選擇區(qū)塊鏈共識(shí)機(jī)制的方法、裝置以及共識(shí)節(jié)點(diǎn)
- 一種復(fù)合改性機(jī)制砂及其制備方法
- 一種存儲(chǔ)設(shè)備糾錯(cuò)方法及糾錯(cuò)裝置
- 區(qū)塊鏈中共識(shí)機(jī)制的處理方法、裝置和電子設(shè)備
- 一種建筑用機(jī)制砂整形裝置
- 通信方法、通信裝置及存儲(chǔ)介質(zhì)
- 一種網(wǎng)絡(luò)預(yù)約出租車市場(chǎng)準(zhǔn)入機(jī)制的優(yōu)化方法及系統(tǒng)





