[發(fā)明專利]用戶數(shù)據(jù)分類方法、裝置、服務(wù)器和計算機可讀存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 201710401985.2 | 申請日: | 2017-05-31 |
| 公開(公告)號: | CN107273454B | 公開(公告)日: | 2020-11-03 |
| 發(fā)明(設(shè)計)人: | 赫南;朱順;孫振鵬;楊旭;陳英杰;完灝;胡景賀;溫園旭;李慧倩;李嬋怡 | 申請(專利權(quán))人: | 北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06Q30/02 |
| 代理公司: | 中科專利商標(biāo)代理有限責(zé)任公司 11021 | 代理人: | 王洵 |
| 地址: | 100195 北京市海淀區(qū)杏石口路6*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用戶 數(shù)據(jù) 分類 方法 裝置 服務(wù)器 計算機 可讀 存儲 介質(zhì) | ||
1.一種用戶數(shù)據(jù)分類方法,包括:
產(chǎn)生用戶數(shù)據(jù)的特征,所述特征包括購買商品的類目特征、人口屬性特征以及時間特征,其中所述時間特征包括購買時間加權(quán)特征和與各個人生階段有關(guān)的特征,并且其中所述購買時間加權(quán)特征定義如下:
其中λ是衰減因子,T為時間戳,ti為用戶第i次購買行為的時間戳,m為截止到T為止所述用戶的總購買次數(shù);
根據(jù)標(biāo)注規(guī)則,產(chǎn)生用戶數(shù)據(jù)的標(biāo)注數(shù)據(jù)集和未標(biāo)注數(shù)據(jù)集;
根據(jù)所述標(biāo)注數(shù)據(jù)集和未標(biāo)注數(shù)據(jù)集,構(gòu)建多個類別中的一個類別的正樣本標(biāo)注數(shù)據(jù)集P和未知樣本數(shù)據(jù)集U;
根據(jù)正樣本標(biāo)注數(shù)據(jù)集P和未知樣本數(shù)據(jù)集U以及相對應(yīng)的用戶數(shù)據(jù)的特征,產(chǎn)生分類器;
使用所述分類器確定未標(biāo)注數(shù)據(jù)集中的用戶數(shù)據(jù)是否屬于所述類別。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述用戶數(shù)據(jù)是電商用戶數(shù)據(jù),所述多個類別是多個人生階段。
3.根據(jù)權(quán)利要求2所述的方法,還包括判斷所述用戶數(shù)據(jù)是否滿足標(biāo)注規(guī)則,如果滿足則加入到標(biāo)注數(shù)據(jù)集中,所述標(biāo)注規(guī)則包括:
如果用戶數(shù)據(jù)指示只購買過一個人生階段的商品,則將購買時間確定為該人生階段的開始時間,
如果用戶數(shù)據(jù)指示購買過多個人生階段的商品且按照時間順序購買,則最后一次購買的時間確定相對應(yīng)的人生階段的開始時間,和/或
如果用戶數(shù)據(jù)指示購買過多個人生階段的商品且沒有按照時間順序購買,則以最早的人生階段為準(zhǔn),將屬于該人生階段的最早下單時間確定該人生階段的開始時間;
其中,所述方法還包括,根據(jù)所確定的人生階段的開始時間、每個人生階段的持續(xù)時間和當(dāng)前時間,確定用戶數(shù)據(jù)當(dāng)前屬于哪個人生階段。
4.根據(jù)權(quán)利要求1所述的方法,其中,正樣本標(biāo)準(zhǔn)數(shù)據(jù)集P包括標(biāo)注數(shù)據(jù)集中屬于所述類別的用戶數(shù)據(jù),未知樣本數(shù)據(jù)集U包括由標(biāo)注數(shù)據(jù)集中不屬于所述類別的用戶數(shù)據(jù)和未標(biāo)注數(shù)據(jù)集中的用戶數(shù)據(jù)組成的集合中的至少一部分,并且產(chǎn)生分類器包括以下步驟:
設(shè)置分類器M為空,并且可靠負(fù)樣本集合RN為空;
從P中隨機采樣一部分用戶數(shù)據(jù)S加入U,更新P和U,記為Ps=P-S,Us=U+S;
使用Ps作為正樣本,Us作為負(fù)樣本,訓(xùn)練邏輯回歸分類器LRi,i=0,1,…,如下
(1)利用S設(shè)定分類器閾值th;
(2)對于每一個樣本u∈Us:如果在LRi的分類器結(jié)果小于閾值th,則將u加入RN中,并且Us=Us-RN;
(3)M=M+LRi;
使用Ps作為正樣本,RN作為負(fù)樣本,訓(xùn)練邏輯回歸分類器LRi,重復(fù)以上步驟(1)-(3),直到滿足迭代終止條件,得到分類器LRlast;
使用LRlast對P進行分類,如果超過一定閾值數(shù)量的正樣本被判定為負(fù),則返回LR1作為最終分類器,否則返回LRlast作為最終的分類器。
5.一種用戶數(shù)據(jù)分類裝置,包括:
特征產(chǎn)生單元,被配置為產(chǎn)生用戶數(shù)據(jù)的特征,所述特征包括購買商品的類目特征、人口屬性特征以及時間特征,其中所述時間特征包括購買時間加權(quán)特征和與各個人生階段有關(guān)的特征,并且其中所述購買時間加權(quán)特征定義如下:
其中λ是衰減因子,T為時間戳,ti為用戶第i次購買行為的時間戳,m為截止到T為止所述用戶的總購買次數(shù);
標(biāo)注單元,被配置為根據(jù)標(biāo)注規(guī)則,產(chǎn)生用戶數(shù)據(jù)的標(biāo)注數(shù)據(jù)集和未標(biāo)注數(shù)據(jù)集;
樣本構(gòu)建單元,被配置為根據(jù)所述標(biāo)注數(shù)據(jù)集和未標(biāo)注數(shù)據(jù)集,構(gòu)建多個類別中的一個類別的正樣本標(biāo)注數(shù)據(jù)集P和未知樣本數(shù)據(jù)集U;
分類器產(chǎn)生單元,被配置為根據(jù)正樣本標(biāo)注數(shù)據(jù)集P和未知樣本數(shù)據(jù)集U以及相對應(yīng)的用戶數(shù)據(jù)的特征,產(chǎn)生分類器;
分類單元,被配置為使用所述分類器確定未標(biāo)注數(shù)據(jù)集中的用戶數(shù)據(jù)是否屬于所述類別。
6.根據(jù)權(quán)利要求5所述的裝置,其中,所述用戶數(shù)據(jù)是電商用戶數(shù)據(jù),所述多個類別是多個人生階段。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司,未經(jīng)北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710401985.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





