[發明專利]數據處理及傾向特征值識別方法、裝置、電子設備有效
| 申請號: | 201910563740.9 | 申請日: | 2019-06-26 |
| 公開(公告)號: | CN110287418B | 公開(公告)日: | 2021-10-19 |
| 發明(設計)人: | 劉鑫鑫 | 申請(專利權)人: | 拉扎斯網絡科技(上海)有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06Q30/06;G06K9/62 |
| 代理公司: | 北京智信四方知識產權代理有限公司 11519 | 代理人: | 鐘文芳;宋海龍 |
| 地址: | 200333 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 傾向 特征值 識別 方法 裝置 電子設備 | ||
本公開實施例公開了一種數據處理及傾向特征值識別方法、裝置、電子設備。該數據處理方法包括:獲取樣本數據;其中,所述樣本數據包括樣本對象所提供的產品類別的多個樣本特征;所述樣本特征包括用戶針對所述產品類別下的產品所產生的行為數據;根據所述樣本數據中的部分樣本特征確定用戶對所述樣本對象提供的所述產品類別的傾向特征值;根據所述樣本數據和所述傾向特征值對傾向特征值識別模型進行訓練。使得該傾向特征值識別模型能夠從用戶的行為數據學習到能夠影響用戶對產品和/或服務等對象的傾向特征值的各個特征的權重,進而可以根據這些特征的權重識別出用戶的真實需求,能夠應用到檢索等技術領域,提高檢索結果的準確率。
技術領域
本公開涉及計算機技術領域,具體涉及一種數據處理及傾向特征值識別方法、裝置、電子設備。
背景技術
隨著互聯網技術的發展,越來越多的用戶通過線上平臺獲取產品和/服務等對象。而線上平臺由于所經營的產品和/或服務種類繁多,用戶在搜索產品和/或服務時難免會由于命中太多不需要的搜索結果而導致用戶的使用體驗下降的問題。因此,如何通過分析用戶的真實需求而提高用戶在線上平臺的使用體驗是目前亟需解決的問題之一。
發明內容
本公開實施例提供一種數據處理及傾向特征值識別方法、裝置、電子設備及存儲介質。
第一方面,本公開實施例中提供了一種數據處理方法,包括:
獲取樣本數據;其中,所述樣本數據包括樣本對象所提供的產品類別的多個樣本特征;所述樣本特征包括用戶針對所述產品類別下的產品所產生的行為數據;
根據所述樣本數據中的部分樣本特征確定用戶對所述樣本對象提供的所述產品類別的傾向特征值;
根據所述樣本數據和所述傾向特征值對傾向特征值識別模型進行訓練。
結合第一方面,本公開在第一方面的第一種實現方式中,多個所述樣本特征包括以下至少兩個:
用戶在預設時間段內對所述產品類別下的產品的評價數據;
用戶在預設時間段內對所述樣本對象的評價數據;
用戶在預設時間段內對所述產品類別下的產品的下單量;
用戶在預設時間段內對所述產品類別下的產品的點擊量;
用戶在預設時間段內購買所述產品類別下的產品的價格;
用戶在預設時間段內的不同經營時段購買所述產品類別下的產品的價格;
用戶在預設時間段內的不同經營時段對所述產品類別下的產品的下單量;
用戶在預設時間段內的不同經營時段對所述產品類別下的產品的點擊量;
在預設時間段內對所述產品類別下的產品的最早購買時間距離當前時間的間隔時長;
在預設時間段內對所述產品類別下的產品的最早點擊時間距離當前時間的間隔時長;
在預設時間段內對所述產品類別下的產品的最近購買時間距離當前時間的間隔時長;
在預設時間段內對所述產品類別下的產品的最近點擊時間距離當前時間的間隔時長。
結合第一方面和/或第一方面的第一種實現方式,本公開在第一方面的第二種實現方式中,獲取樣本數據之后,還包括:
在所述樣本數據對應的多個樣本特征中特征缺失個數超過預定數量時,將所述樣本數據剔除;和/或
在所述樣本數據對應的多個樣本特征中特征缺失個數不超過預定數量時,利用熱卡填充方式填充缺失的所述樣本特征;和/或
將所述樣本特征進行特征歸一化。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于拉扎斯網絡科技(上海)有限公司,未經拉扎斯網絡科技(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910563740.9/2.html,轉載請聲明來源鉆瓜專利網。





