[發(fā)明專利]一種用戶等級自動劃分方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201610537520.5 | 申請日: | 2016-07-08 |
| 公開(公告)號: | CN106202388B | 公開(公告)日: | 2017-12-08 |
| 發(fā)明(設(shè)計(jì))人: | 龔燦 | 申請(專利權(quán))人: | 武漢斗魚網(wǎng)絡(luò)科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 武漢智權(quán)專利代理事務(wù)所(特殊普通合伙)42225 | 代理人: | 沈林華 |
| 地址: | 430000 湖北省武漢市東湖開*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 用戶 等級 自動 劃分 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域,具體來講是一種用戶等級自動劃分方法及系統(tǒng)。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,越來越多的用戶可以使用電腦、手機(jī)等終端通過網(wǎng)絡(luò)在各種網(wǎng)站上進(jìn)行娛樂和工作。而對于各類網(wǎng)站來說,其用戶群也隨著用戶數(shù)量的不斷增多而變得越來越龐大。為了滿足日益增大的用戶群,提高網(wǎng)站服務(wù)質(zhì)量,提升用戶體驗(yàn),通常需要對用戶等級進(jìn)行劃分。例如,在視頻直播網(wǎng)站的各業(yè)務(wù)場景中,為了刺激用戶的觀看興致,提高觀看量和用戶體驗(yàn),通常會對網(wǎng)站中的用戶等級進(jìn)行一系列的劃分。
目前,各大網(wǎng)站在進(jìn)行用戶等級的劃分時(shí),普遍采用的是一種人工經(jīng)驗(yàn)劃分的方式。然而,在實(shí)際操作中,全由人工采用手動劃分用戶等級的方法,往往帶有較大程度的主觀性,使得劃分標(biāo)準(zhǔn)不統(tǒng)一;另外,在海量數(shù)據(jù)的場景下,用戶數(shù)據(jù)往往維度多、數(shù)據(jù)量大,靠人工評判用戶等級劃分標(biāo)準(zhǔn)往往不準(zhǔn)確、覆蓋率也不夠高、重復(fù)性的工作也容易導(dǎo)致失誤,而且人工操作時(shí)間較長,劃分效率較低,人力成本較大。
發(fā)明內(nèi)容
本發(fā)明的目的是為了克服上述背景技術(shù)的不足,提供一種用戶等級自動劃分方法及系統(tǒng),能實(shí)現(xiàn)用戶等級的自動劃分,準(zhǔn)確、高效、節(jié)省人力成本。
為達(dá)到以上目的,本發(fā)明提供一種用于直播網(wǎng)站的直播房間推薦方法,包括以下步驟:
步驟S1、選擇樣本數(shù)據(jù):選取指定時(shí)間段內(nèi)的用戶行為數(shù)據(jù)作為原始樣本數(shù)據(jù),轉(zhuǎn)入步驟S2;
步驟S2、選擇用戶特征:在用戶行為數(shù)據(jù)中選取至少一種用戶特征作為計(jì)算距離的維度,轉(zhuǎn)入步驟S3;
步驟S3、確定分類的個(gè)數(shù)K值:根據(jù)用戶被分成幾個(gè)類別等級,確定分類的個(gè)數(shù)K,K為正整數(shù),轉(zhuǎn)入步驟S4;
步驟S4、確定初始類心:隨機(jī)在原始樣本數(shù)據(jù)中挑選K個(gè)用戶作為初始類心,轉(zhuǎn)入步驟S5;
步驟S5、歸類劃分:根據(jù)步驟S2中選取的維度,測量原始樣本數(shù)據(jù)中剩余的每個(gè)用戶到當(dāng)前各個(gè)類心的距離D;將所述剩余的每個(gè)用戶歸類到距離最近的一個(gè)類中,完成K個(gè)類的劃分,轉(zhuǎn)入步驟S6;
步驟S6、計(jì)算新的類心:在當(dāng)前已經(jīng)劃分好的K個(gè)類中,重新計(jì)算各個(gè)類的類心,轉(zhuǎn)入步驟S7;
步驟S7、重復(fù)迭代步驟S5、S6,直至新的類心與原類心相等或者變化量小于指定閾值時(shí),停止迭代運(yùn)算,則當(dāng)前所劃分的K個(gè)分類即為所需劃分的用戶等級分類。
在上述技術(shù)方案的基礎(chǔ)上,步驟S2中所述用戶特征包括用戶觀看時(shí)長、用戶觀看次數(shù)、用戶發(fā)送彈幕數(shù)、用戶發(fā)送免費(fèi)道具數(shù)、用戶在線領(lǐng)取免費(fèi)道具數(shù)、用戶發(fā)送付費(fèi)道具數(shù)、用戶關(guān)注房間數(shù)、用戶關(guān)注分區(qū)數(shù)。
在上述技術(shù)方案的基礎(chǔ)上,在步驟S2之后還包括歸一化特征值的操作:對每個(gè)選取的用戶特征進(jìn)行特征值的歸一化計(jì)算,計(jì)算公式為:Y=(X-MinValue(X))/(MaxValue(X)-MinValue(X)),其中,Y為歸一化后的特征值,X為某個(gè)用戶特征對應(yīng)的一個(gè)用戶特征值,MinValue(X)為該用戶特征中最小的用戶特征值,MaxValue(X)為該用戶特征中最大的用戶特征值,歸一化之后的用戶特征值都集中在(0,1]之間。
在上述技術(shù)方案的基礎(chǔ)上,步驟S5中,距離D的計(jì)算公式為:
D=(xj-μi)2
其中,xj為第j個(gè)用戶特征,j為正整數(shù),μi為第i個(gè)類的類心,i為1~K的正整數(shù)。
在上述技術(shù)方案的基礎(chǔ)上,步驟S6具體包括以下操作:步驟S601:針對當(dāng)前K類中每一類下屬的每一個(gè)用戶,分別計(jì)算該用戶到本類其他用戶的距離和V,距離和計(jì)算公式為:
其中,xj為第j個(gè)用戶特征,j為正整數(shù),μi為第i個(gè)類的類心,i為1~K的正整數(shù),si表示用戶特征的集合,轉(zhuǎn)入步驟S602;步驟S602:為K類中的每一類選取距離和最小的用戶作為該類的新的類心。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢斗魚網(wǎng)絡(luò)科技有限公司,未經(jīng)武漢斗魚網(wǎng)絡(luò)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610537520.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種搜索結(jié)果展示方法和裝置
- 下一篇:一種對象信息的處理方法及裝置
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)





