[發(fā)明專利]負(fù)樣本的抽取方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 201910985141.6 | 申請(qǐng)日: | 2019-10-16 |
| 公開(公告)號(hào): | CN110851708A | 公開(公告)日: | 2020-02-28 |
| 發(fā)明(設(shè)計(jì))人: | 任俊松 | 申請(qǐng)(專利權(quán))人: | 中國(guó)平安人壽保險(xiǎn)股份有限公司 |
| 主分類號(hào): | G06F16/9535 | 分類號(hào): | G06F16/9535;G06F16/951 |
| 代理公司: | 北京市立方律師事務(wù)所 11330 | 代理人: | 劉延喜 |
| 地址: | 518033 廣東省深圳市福田區(qū)益田路503*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 樣本 抽取 方法 裝置 計(jì)算機(jī) 設(shè)備 存儲(chǔ) 介質(zhì) | ||
本申請(qǐng)涉及機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域,尤其涉及一種負(fù)樣本的抽取方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì),包括:獲取應(yīng)用平臺(tái)中展示頁(yè)面的頁(yè)面埋點(diǎn)信息,根據(jù)所述頁(yè)面埋點(diǎn)信息確定各個(gè)埋點(diǎn)對(duì)象的標(biāo)簽信息和流行度信息;獲取用戶在所述應(yīng)用平臺(tái)中的歷史行為信息,并通過所述歷史行為信息確定用戶在所述應(yīng)用平臺(tái)中的標(biāo)簽權(quán)重;根據(jù)所述標(biāo)簽權(quán)重和各個(gè)埋點(diǎn)對(duì)象的標(biāo)簽信息,確定所述應(yīng)用平臺(tái)中各個(gè)埋點(diǎn)對(duì)象被用戶抽樣的抽樣概率;根據(jù)各個(gè)埋點(diǎn)對(duì)象的流行度信息和抽樣概率生成負(fù)樣本分布序列,并從所述負(fù)樣本分布序列中抽取負(fù)樣本;本方案不僅優(yōu)化了負(fù)樣本的抽樣邏輯,還降低了模型訓(xùn)練過程中的計(jì)算量以及提高了模型效果和評(píng)價(jià)指標(biāo)。
技術(shù)領(lǐng)域
本申請(qǐng)涉及機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域,尤其涉及一種負(fù)樣本的抽取方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。
背景技術(shù)
目前,個(gè)性化信息推薦已經(jīng)被各大互聯(lián)網(wǎng)平臺(tái)廣泛采用,它通過跟蹤用戶的歷史行為,提取用戶的興趣特征,分析信息與用戶特征的匹配程度,從而給用戶推薦可能感興趣的信息。
例如,推薦系統(tǒng)會(huì)將應(yīng)用平臺(tái)中收集到的用戶的樣本信息送入訓(xùn)練模型中進(jìn)行訓(xùn)練,通過比較樣本信息中的正負(fù)樣本來模擬用戶可能感興趣的信息,其中,負(fù)樣本的選取對(duì)訓(xùn)練模型的效果起到關(guān)鍵性的作用;但是,目前推薦系統(tǒng)在對(duì)負(fù)樣本進(jìn)行選取時(shí),通常采用隨機(jī)抽樣的方式,這種方式選取的負(fù)樣本價(jià)值度較低,容易影響推薦效果。
發(fā)明內(nèi)容
本申請(qǐng)的目的旨在至少能解決上述的技術(shù)缺陷之一,特別是現(xiàn)有技術(shù)中采用隨機(jī)抽樣的方式選取的負(fù)樣本價(jià)值度較低,容易影響推薦效果的技術(shù)缺陷。
本申請(qǐng)?zhí)峁┮环N負(fù)樣本的抽取方法,包括如下步驟:
獲取應(yīng)用平臺(tái)中展示頁(yè)面的頁(yè)面埋點(diǎn)信息,根據(jù)所述頁(yè)面埋點(diǎn)信息確定各個(gè)埋點(diǎn)對(duì)象的標(biāo)簽信息和流行度信息;
獲取用戶在所述應(yīng)用平臺(tái)中的歷史行為信息,并通過所述歷史行為信息確定用戶在所述應(yīng)用平臺(tái)中的標(biāo)簽權(quán)重;
根據(jù)所述標(biāo)簽權(quán)重和各個(gè)埋點(diǎn)對(duì)象的標(biāo)簽信息,確定所述應(yīng)用平臺(tái)中各個(gè)埋點(diǎn)對(duì)象被用戶抽樣的抽樣概率;
根據(jù)各個(gè)埋點(diǎn)對(duì)象的流行度信息和抽樣概率生成負(fù)樣本分布序列,并從所述負(fù)樣本分布序列中抽取負(fù)樣本。
在一個(gè)實(shí)施例中,根據(jù)所述頁(yè)面埋點(diǎn)信息確定各個(gè)埋點(diǎn)對(duì)象的標(biāo)簽信息和流行度信息的步驟,包括:
通過所述頁(yè)面埋點(diǎn)信息確定所述展示頁(yè)面中的各個(gè)埋點(diǎn)對(duì)象,以及所述埋點(diǎn)對(duì)象對(duì)應(yīng)的埋點(diǎn)數(shù)據(jù);其中,所述埋點(diǎn)數(shù)據(jù)包括埋點(diǎn)屬性和交互信息;
根據(jù)所述埋點(diǎn)屬性確定所述埋點(diǎn)對(duì)象的標(biāo)簽信息,以及根據(jù)所述交互信息確定所述埋點(diǎn)對(duì)象的流行度信息。
在一個(gè)實(shí)施例中,通過所述歷史行為信息確定用戶在所述應(yīng)用平臺(tái)中的標(biāo)簽權(quán)重的步驟,包括:
根據(jù)所述歷史行為信息確定用戶在所述應(yīng)用平臺(tái)中的各個(gè)行為對(duì)象,以及所述行為對(duì)象對(duì)應(yīng)的行為數(shù)據(jù);
根據(jù)所述行為數(shù)據(jù)統(tǒng)計(jì)所述行為對(duì)象中各個(gè)標(biāo)簽對(duì)應(yīng)的標(biāo)簽數(shù)據(jù),并將所述標(biāo)簽數(shù)據(jù)進(jìn)行歸一化處理后得到用戶在所述應(yīng)用平臺(tái)中的標(biāo)簽權(quán)重。
在一個(gè)實(shí)施例中,根據(jù)所述標(biāo)簽權(quán)重和各個(gè)埋點(diǎn)對(duì)象的標(biāo)簽信息,確定所述應(yīng)用平臺(tái)中各個(gè)埋點(diǎn)對(duì)象被用戶抽樣的抽樣概率的步驟,包括:
根據(jù)所述標(biāo)簽權(quán)重對(duì)應(yīng)的標(biāo)簽以及各個(gè)埋點(diǎn)對(duì)象的標(biāo)簽信息確定用戶對(duì)各個(gè)埋點(diǎn)對(duì)象的興趣度;其中,在所述標(biāo)簽權(quán)重中沒有與所述埋點(diǎn)對(duì)象的標(biāo)簽信息對(duì)應(yīng)的標(biāo)簽時(shí),所述興趣度取零;
根據(jù)所述興趣度確定所述應(yīng)用平臺(tái)中各個(gè)埋點(diǎn)對(duì)象被用戶抽樣的抽樣概率。
在一個(gè)實(shí)施例中,所述流行度信息包括各個(gè)埋點(diǎn)對(duì)象被用戶點(diǎn)擊的次數(shù);
根據(jù)各個(gè)埋點(diǎn)對(duì)象的流行度信息和抽樣概率生成負(fù)樣本分布序列的步驟,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)平安人壽保險(xiǎn)股份有限公司,未經(jīng)中國(guó)平安人壽保險(xiǎn)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910985141.6/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 樣本引入裝置、樣本引入基片和樣本引入方法
- 樣本查找方法、裝置及系統(tǒng)
- 模型訓(xùn)練、樣本平衡方法及裝置以及個(gè)人信用評(píng)分系統(tǒng)
- 樣本輸送系統(tǒng)、樣本輸送方法以及樣本檢測(cè)系統(tǒng)
- 樣本分析裝置、樣本檢測(cè)設(shè)備及樣本檢測(cè)方法
- 樣本檢測(cè)方法、樣本檢測(cè)裝置及樣本檢測(cè)系統(tǒng)
- 樣本架、樣本混勻系統(tǒng)及樣本分析儀
- 樣本收集管及樣本收集系統(tǒng)
- 樣本數(shù)據(jù)集的擴(kuò)容方法及模型的訓(xùn)練方法
- 行人重識(shí)別的噪聲樣本識(shí)別方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





