[發(fā)明專利]新聞信息的推薦處理方法、裝置、設(shè)備和計算機(jī)存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 201911303132.0 | 申請日: | 2019-12-17 |
| 公開(公告)號: | CN111160552B | 公開(公告)日: | 2023-09-26 |
| 發(fā)明(設(shè)計)人: | 蘇煒躍;馮仕堃;朱志凡;何徑舟 | 申請(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06F16/901;G06F16/9035;G06F16/9535 |
| 代理公司: | 北京鴻德海業(yè)知識產(chǎn)權(quán)代理有限公司 11412 | 代理人: | 田宏賓 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 新聞 信息 推薦 處理 方法 裝置 設(shè)備 計算機(jī) 存儲 介質(zhì) | ||
本申請公開了一種新聞信息的推薦處理方法、裝置、設(shè)備和計算機(jī)存儲介質(zhì),涉及計算機(jī)應(yīng)用技術(shù)領(lǐng)域。具體實現(xiàn)方案為:從圖中選取節(jié)點分別進(jìn)行隨機(jī)游走,得到N條路徑,所述圖包括節(jié)點以及節(jié)點之間的關(guān)聯(lián),所述N為大于1的正整數(shù),各路徑包含M個節(jié)點,所述M為正整數(shù);針對各路徑上的各節(jié)點,分別從其他路徑上選擇節(jié)點作為負(fù)例。本申請能夠提高負(fù)采樣速率以及節(jié)約內(nèi)存資源,特別是大規(guī)模場景下優(yōu)點更加突出。
技術(shù)領(lǐng)域
本申請涉及計算機(jī)應(yīng)用技術(shù)領(lǐng)域,特別涉及一種人工智能領(lǐng)域的新聞信息的推薦處理方法、裝置、設(shè)備和計算機(jī)存儲介質(zhì)。
背景技術(shù)
Deepwalk是一種學(xué)習(xí)網(wǎng)絡(luò)中節(jié)點表示的方法,目前在推薦領(lǐng)域具有廣泛應(yīng)用。其能夠基于圖的方式利用節(jié)點和邊進(jìn)行無監(jiān)督訓(xùn)練,挖掘出節(jié)點之間的潛在關(guān)聯(lián)。然而,要在目前互聯(lián)網(wǎng)中動則億級別的用戶數(shù)據(jù)中訓(xùn)練Deepwalk,訓(xùn)練速度是最為關(guān)注的問題。其中負(fù)采樣是影響deepwalk訓(xùn)練的重要環(huán)節(jié)之一。
傳統(tǒng)的負(fù)采樣通過hash(哈希)表的方式,將概率按一定位置切分,從各切分位置分別采樣節(jié)點作為負(fù)例,以此來提升負(fù)采樣的速度。然而這種方式需要從全局采樣節(jié)點作為負(fù)例,在大規(guī)模場景下節(jié)點數(shù)目非常多,負(fù)例節(jié)點的數(shù)據(jù)是正例節(jié)點的很多倍,這就會造成采樣效率低下,消耗過多的內(nèi)存資源。
發(fā)明內(nèi)容
有鑒于此,本申請?zhí)峁┝艘环N采樣處理方法、裝置、設(shè)備和計算機(jī)存儲介質(zhì),以便于提高采樣效率,節(jié)約內(nèi)存資源。
第一方面,本申請?zhí)峁┝艘环N負(fù)采樣處理方法,該方法包括:
從圖中選取節(jié)點分別進(jìn)行隨機(jī)游走,得到N條路徑,所述圖包括節(jié)點以及節(jié)點之間的關(guān)聯(lián),所述N為大于1的正整數(shù),各路徑包含M個節(jié)點,所述M為正整數(shù);
針對各路徑上的各節(jié)點,分別從其他路徑上選擇節(jié)點作為負(fù)例。
根據(jù)本申請一優(yōu)選實施方式,所述從圖中選取節(jié)點分別進(jìn)行隨機(jī)游走包括:
將圖中每個節(jié)點至少選取一次分別進(jìn)行隨機(jī)游走。
根據(jù)本申請一優(yōu)選實施方式,該方法還包括:
針對各路徑上的各節(jié)點,依據(jù)節(jié)點之間的距離分別確定各節(jié)點的正例。
根據(jù)本申請一優(yōu)選實施方式,所述依據(jù)節(jié)點之間的距離分別確定各節(jié)點的正例包括:
對于路徑上的第一節(jié)點,將與第一節(jié)點屬于同一路徑且距離小于P個節(jié)點的第二節(jié)點作為所述第一節(jié)點的正例,所述P為預(yù)設(shè)的正整數(shù)。
根據(jù)本申請一優(yōu)選實施方式,該方法還包括:
利用同一節(jié)點的正例和負(fù)例,構(gòu)成正負(fù)例對;
利用所述正負(fù)例對訓(xùn)練跳字skip-gram模型,訓(xùn)練目標(biāo)為:最大化skip-gram模型輸出的同一正負(fù)例對中正例的概率與負(fù)例的概率之間的差值;
訓(xùn)練結(jié)束后從skip-gram模型得到各節(jié)點的向量表示。
第二方面,本申請還提供了一種負(fù)采樣處理裝置,該裝置包括:
隨機(jī)游走單元,用于從圖中選取節(jié)點分別進(jìn)行隨機(jī)游走,得到N條路徑,所述圖包括節(jié)點以及節(jié)點之間的關(guān)聯(lián),所述N為大于1的正整數(shù),各路徑包含M個節(jié)點,所述M為正整數(shù);
負(fù)例選擇單元,用于針對各路徑上的各節(jié)點,分別從其他路徑上選擇節(jié)點作為負(fù)例。
根據(jù)本申請一優(yōu)選實施方式,所述隨機(jī)游走單元,具體用于將圖中每個節(jié)點至少選取一次分別進(jìn)行隨機(jī)游走。
根據(jù)本申請一優(yōu)選實施方式,該裝置還包括:
正例選擇單元,用于針對各路徑上的各節(jié)點,依據(jù)節(jié)點之間的距離分別確定各節(jié)點的正例。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911303132.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





