[發(fā)明專利]訓練樣本構建方法、裝置、終端設備及存儲介質在審
| 申請?zhí)枺?/td> | 202011217114.3 | 申請日: | 2020-11-04 |
| 公開(公告)號: | CN112328779A | 公開(公告)日: | 2021-02-05 |
| 發(fā)明(設計)人: | 老焯楠 | 申請(專利權)人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06F16/335 | 分類號: | G06F16/335 |
| 代理公司: | 深圳中一聯(lián)合知識產權代理有限公司 44414 | 代理人: | 李木燕 |
| 地址: | 518000 廣東省深圳市福田*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練 樣本 構建 方法 裝置 終端設備 存儲 介質 | ||
本申請適用于人工智能技術領域,提供了一種訓練樣本構建方法、裝置、終端設備及存儲介質,該方法包括:根據(jù)不同用戶賬戶的文章分享數(shù)據(jù)對用戶進行篩選得到樣本用戶;根據(jù)樣本用戶對應的文章分享數(shù)據(jù)構建分享序列特征;根據(jù)分享序列特征構建對應于樣本用戶的標簽序列特征;根據(jù)分享序列特征和標簽序列特征進行樣本構建得到訓練樣本。本申請通過根據(jù)分享序列特征和標簽序列特征進行樣本構建,能基于樣本用戶分享的不同文章之間和不同文章對應標簽之間分享順序的特征進行訓練樣本的構建。也即,當預估模型基于上述訓練樣本訓練后,能準確的預估到用戶的文章分享行為,提高了預估模型對用戶文章分享行為預估的準確性。此外,本申請還涉及區(qū)塊鏈技術。
技術領域
本申請涉及人工智能領域,尤其涉及一種訓練樣本構建方法、裝置、終端設備及存儲介質。
背景技術
在推薦算法中,CTR(Click-Through-Rate)預估模型無疑是使用最為廣泛的排序模型方案。而預估模型訓練所用的訓練樣本則是整個算法的關鍵所在,在推薦算法中,70%以上的精力和時間是消耗在訓練樣本的構建上,訓練樣本質量的好壞將直接影響預估模型的最終效果,因此,訓練樣本的構建方法越來越受人們所重視。
現(xiàn)有的訓練樣本構建過程中,均是對用戶的點擊數(shù)據(jù)和文章的曝光數(shù)據(jù)進行特征的提取,并根據(jù)提取到的點擊特征和曝光特征進行訓練樣本的構建,使得訓練后的預估模型能預估到用戶的點擊行為,但訓練后的預估模型并不能有效的對用戶的文章分享行為進行預估,使得訓練后的預估模型對用戶的文章分享行為預估準確性低下,降低了用戶的使用體驗。
發(fā)明內容
有鑒于此,本申請實施例提供了一種訓練樣本構建方法、裝置、終端設備及存儲介質,以解決現(xiàn)有技術的訓練樣本構建過程中,由于根據(jù)提取到的點擊特征和曝光特征進行訓練樣本構建,所導致的訓練后的預估模型對用戶的文章分享行為預估準確性低下的問題。
本申請實施例的第一方面提供了一種訓練樣本構建方法,包括:
獲取不同用戶賬戶的文章分享數(shù)據(jù),并根據(jù)所述文章分享數(shù)據(jù)對用戶進行篩選,得到樣本用戶,所述文章分享數(shù)據(jù)包括所述用戶賬戶分享的多篇文章;
根據(jù)所述樣本用戶對應的所述文章分享數(shù)據(jù)構建分享序列特征,所述分享序列特征用于表征不同文章之間的分享順序;
根據(jù)所述分享序列特征構建對應于所述樣本用戶的標簽序列特征,所述標簽序列特征用于表征不同文章之間文章標簽的分享順序;
根據(jù)所述分享序列特征和所述標簽序列特征進行樣本構建,得到所述訓練樣本。
進一步地,所述根據(jù)所述樣本用戶對應的所述文章分享數(shù)據(jù)構建分享序列特征,包括:
對所述文章分享數(shù)據(jù)中的所述文章進行篩選,并獲取篩選后所述文章對應的分享時間;
根據(jù)所述分享時間對篩選后的所述文章進行排序,得到所述文章分享數(shù)據(jù)對應所述樣本用戶的所述分享序列特征。
進一步地,所述對所述文章分享數(shù)據(jù)中的所述文章進行篩選,包括:
對所述文章分享數(shù)據(jù)中的所述文章進行重復分享檢測,所述重復分享檢測用于檢測所述文章分享數(shù)據(jù)中是否存在相同文章;
若所述文章分享數(shù)據(jù)中存在相同文章,則分別獲取所述相同文章的分享時間,并根據(jù)所述相同文章的分享時間進行文章刪除,且刪除掉的所述文章的數(shù)量小于所述相同文章的數(shù)量。
進一步地,所述根據(jù)所述相同文章的分享時間進行文章刪除,包括:
分別計算所述相同文章的分享時間與當前時間之間的時間差;
將最小所述時間差對應的所述相同文章進行保留,并在所述文章分享數(shù)據(jù)中刪除其余所述時間差對應的所述相同文章。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國平安人壽保險股份有限公司,未經中國平安人壽保險股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011217114.3/2.html,轉載請聲明來源鉆瓜專利網。





