[發明專利]負樣本的抽取方法、裝置、計算機設備和存儲介質在審
| 申請號: | 201910985141.6 | 申請日: | 2019-10-16 |
| 公開(公告)號: | CN110851708A | 公開(公告)日: | 2020-02-28 |
| 發明(設計)人: | 任俊松 | 申請(專利權)人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/951 |
| 代理公司: | 北京市立方律師事務所 11330 | 代理人: | 劉延喜 |
| 地址: | 518033 廣東省深圳市福田區益田路503*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 樣本 抽取 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種負樣本的抽取方法,其特征在于,包括如下步驟:
獲取應用平臺中展示頁面的頁面埋點信息,根據所述頁面埋點信息確定各個埋點對象的標簽信息和流行度信息;
獲取用戶在所述應用平臺中的歷史行為信息,并通過所述歷史行為信息確定用戶在所述應用平臺中的標簽權重;
根據所述標簽權重和各個埋點對象的標簽信息,確定所述應用平臺中各個埋點對象被用戶抽樣的抽樣概率;
根據各個埋點對象的流行度信息和抽樣概率生成負樣本分布序列,并從所述負樣本分布序列中抽取負樣本。
2.根據權利要求1所述的負樣本的抽取方法,其特征在于,根據所述頁面埋點信息確定各個埋點對象的標簽信息和流行度信息的步驟,包括:
通過所述頁面埋點信息確定所述展示頁面中的各個埋點對象,以及所述埋點對象對應的埋點數據;其中,所述埋點數據包括埋點屬性和交互信息;
根據所述埋點屬性確定所述埋點對象的標簽信息,以及根據所述交互信息確定所述埋點對象的流行度信息。
3.根據權利要求1所述的負樣本的抽取方法,其特征在于,通過所述歷史行為信息確定用戶在所述應用平臺中的標簽權重的步驟,包括:
根據所述歷史行為信息確定用戶在所述應用平臺中的各個行為對象,以及所述行為對象對應的行為數據;
根據所述行為數據統計所述行為對象中各個標簽對應的標簽數據,并將所述標簽數據進行歸一化處理后得到用戶在所述應用平臺中的標簽權重。
4.根據權利要求3所述的負樣本的抽取方法,其特征在于,根據所述標簽權重和各個埋點對象的標簽信息,確定所述應用平臺中各個埋點對象被用戶抽樣的抽樣概率的步驟,包括:
根據所述標簽權重對應的標簽以及各個埋點對象的標簽信息確定用戶對各個埋點對象的興趣度;其中,在所述標簽權重中沒有與所述埋點對象的標簽信息對應的標簽時,所述興趣度取零;
根據所述興趣度確定所述應用平臺中各個埋點對象被用戶抽樣的抽樣概率。
6.根據權利要求5所述的負樣本的抽取方法,其特征在于,從所述負樣本分布序列中抽取負樣本的步驟,包括:
獲取預設抽取數據,根據所述預設抽取數據構建均勻分布序列,并通過二分法查找所述均勻分布序列中的元素在所述負樣本分布序列中的位置信息;
根據所述位置信息確定所述負樣本分布序列中各個位置的索引值并形成索引值序列,將所述索引值序列作為負樣本抽樣序列抽取負樣本。
7.根據權利要求2所述的負樣本的抽取方法,其特征在于,從所述負樣本分布序列中抽取負樣本的步驟之后,還包括:
當所述展示頁面中的埋點對象無交互信息時,將所述負樣本分布序列中對應的埋點對象進行去除處理;
根據去除處理后的各個埋點對象的流行度信息和抽樣概率生成新的負樣本分布序列。
8.一種負樣本的抽取裝置,其特征在于,包括:
第一獲取模塊,用于獲取應用平臺中展示頁面的頁面埋點信息,根據所述頁面埋點信息確定各個埋點對象的標簽信息和流行度信息;
第二獲取模塊,用于獲取用戶在所述應用平臺中的歷史行為信息,并通過所述歷史行為信息確定用戶在所述應用平臺中的標簽權重;
數據處理模塊,用于根據所述標簽權重和各個埋點對象的標簽信息,確定所述應用平臺中各個埋點對象被用戶抽樣的抽樣概率;
樣本抽取模塊,用于根據各個埋點對象的流行度信息和抽樣概率生成負樣本分布序列,并從所述負樣本分布序列中抽取負樣本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國平安人壽保險股份有限公司,未經中國平安人壽保險股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910985141.6/1.html,轉載請聲明來源鉆瓜專利網。





