[發明專利]一種用戶客群分類方法和裝置有效
| 申請號: | 201710293870.6 | 申請日: | 2017-04-28 |
| 公開(公告)號: | CN108304427B | 公開(公告)日: | 2020-03-17 |
| 發明(設計)人: | 陳玲;戶保田 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 深圳翼盛智成知識產權事務所(普通合伙) 44300 | 代理人: | 黃威 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用戶 分類 方法 裝置 | ||
本發明實施例公開了一種用戶客群分類方法和裝置;本發明實施例可以采集多個用戶的用戶數據,按照預設策略從這些用戶數據中選擇數據樣本,然后,對這些數據樣本進行聚類運算,并分別對每個聚類中的數據樣本進行去冗余操作,得到待訓練樣本集,再基于該待訓練樣本集進行分類模型訓練,并根據訓練后分類模型對待分類數據進行客群分類;該方案不僅可以大大加快分類模型的收斂,而且可以提高分類模型的準確率和泛化能力,有利于提高數據分類的效率。
技術領域
本發明涉及通信技術領域,具體涉及一種用戶客群分類方法和裝置。
背景技術
在許多數據分類應用中,如文本分類、圖像分類、以及特殊客群的挖掘等,都需要大量的標注樣本來進行分類模型訓練,而標注樣本通常難以自動獲取,一般都需要人工進行標注。
為了標注盡可能少的樣本,現有通常采用隨機選擇樣本的方式來進行標注,但這種方式可能會使樣本分布與預期樣本分布不一致,導致分類模型過擬合或者準確率不高,因此,現有技術又提出了“主動學習算法”方案。該主動學習算法,可以通過有選擇性的從大量未標注的樣本中選擇最有價值的樣本進行人工標注,從而達到在有效控制樣本集大小的基礎上,提高準確率的目的。其中,主動學習的過程主要分為兩部分:學習器和選擇器。學習器即分類算法模型(簡稱分類模型),負責對已標注的樣本進行學習預測,而選擇器則用于有針對性地選擇未標注樣本進行人工標注,然后再放到已標注樣本集中供學習器學習。目前選擇器算法有最大化信息量算法,最小化解釋空間算法等。這些算法每次迭代都需要對所有未標注樣本計算信息熵或者置信度,并進行排序,然后基于排序記過選擇值較大的樣本進行人工標注。
發明內容
在對現有技術的研究和實踐過程中,本發明的發明人發現,由于在現有方案中,一般都會將信息熵或者置信度較大的樣本挑選出來進行標注,但是,這些樣本之間的相似性也可能較大,因此,往往會出現樣本過于集中的情況,不利于分類模型的收斂,大大影響分類模型的準確率和泛化能力,導致數據分類的效率較低。
本發明實施例提供一種用戶客群分類方法和裝置,不僅可以大大加快分類模型的收斂,而且可以提高分類模型的準確率和泛化能力,有利于提高數據分類的效率。
本發明實施例提供一種用戶客群分類方法,包括:
采集多個用戶的用戶數據,所述用戶數據包括多種用戶行為類別的數據;
按照預設策略從所述多個用戶的用戶數據中選擇數據樣本,得到數據樣本集;
對所述數據樣本集中的數據樣本進行聚類運算,得到多個聚類;
分別對每個聚類中的數據樣本進行去冗余操作,得到待訓練樣本集;
基于所述待訓練樣本集進行分類模型訓練,并根據訓練后分類模型對待分類數據進行客群分類。
相應的,本發明實施例還提供一種數據分類裝置,包括:
采集單元,用于采集多個用戶的用戶數據,所述用戶數據包括多種用戶行為類別的數據;
選擇單元,用于按照預設策略從所述多個用戶的用戶數據中選擇數據樣本,得到數據樣本集;
聚類單元,用于對所述數據樣本集中的數據樣本進行聚類運算,得到多個聚類;
去冗余單元,用于分別對每個聚類中的數據樣本進行去冗余操作,得到待訓練樣本集;
分類單元,用于基于所述待訓練樣本集進行分類模型訓練,并根據訓練后分類模型對待分類數據進行客群分類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710293870.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:標識的獲取方法及裝置
- 下一篇:信息推薦方法及裝置





