[發明專利]一種微博用戶畫像方法、電子設備、存儲介質、系統在審
| 申請號: | 201710807779.1 | 申請日: | 2017-09-08 |
| 公開(公告)號: | CN107633036A | 公開(公告)日: | 2018-01-26 |
| 發明(設計)人: | 蔡毅 | 申請(專利權)人: | 廣州汪汪信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q50/00;G06K9/62 |
| 代理公司: | 廣州市越秀區哲力專利商標事務所(普通合伙)44288 | 代理人: | 李天星,彭成 |
| 地址: | 510000 廣東省廣州市天*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用戶 畫像 方法 電子設備 存儲 介質 系統 | ||
1.一種微博用戶畫像方法,其特征在于包括:
數據獲取,獲取微博平臺上的用戶基礎數據;
標注數據,對所述用戶基礎數據進行標注處理,得到標注用戶基礎數據;
生成分類模型,創建強分類器,所述強分類器用于訓練所述用戶基礎數據,將所述標注用戶基礎數據作為所述強分類器的輸入進行訓練生成分類模型;
生成用戶畫像,將待判定用戶數據輸入到所述分類模型中,得到用戶畫像。
2.根據權利要求1所述的一種微博用戶畫像方法,其特征在于:還包括數據處理,將所述用戶基礎數據進行數據清理、預處理以及特征選擇,所述數據清理包括對所述用戶基礎數據進行去噪處理;所述預處理包括對所述用戶基礎數據進行分詞處理、取出停止詞處理、向量化處理;所述特征選擇包括使用信息增益的特征選擇方法選擇所述用戶基礎數據中特征用于控制特征空間的維度。
3.根據權利要求1所述的一種微博用戶畫像方法,其特征在于:在所述將待判定用戶數據輸入到所述分類模型中之前,還包括驗證所述分類模型,輸入用于驗證的驗證數據至所述分類模型,得到驗證結果,并對所述驗證結果進行評估。
4.根據權利要求1所述的一種微博用戶畫像方法,其特征在于:所述創建強分類器具體為:
根據Bagging算法、Stacking算法對SVM分類器、K-NN分類器以及GBDT分類器進行融合,得Bagging算法融合模型和Stacking算法融合模型;
根據Boosting算法將所述Bagging算法融合模型和所述Stacking算法融合模型融為一體,得到強分類器。
5.根據權利要求4所述的一種微博用戶畫像方法,其特征在于:所述根據Bagging算法對所述SVM分類器、K-NN分類器以及GBDT分類器進行融合具體為:在原始訓練集中每次有放回地選出子訓練集,得到新訓練集,根據所述SVM分類器、K-NN分類器以及GBDT分類器分別對所述新訓練集進行訓練,得到Bagging算法融合模型。
6.根據權利要求4所述的一種微博用戶畫像方法,其特征在于:所述根據Stacking算法對所述SVM分類器、K-NN分類器以及GBDT分類器進行融合具體為:分別將原始訓練集輸入到所述SVM分類器、K-NN分類器以及GBDT分類器中進行訓練,得到訓練結果,將所述訓練結果輸入到所述SVM分類器中,得到Stacking算法融合模型。
7.根據權利要求4所述的一種微博用戶畫像方法,其特征在于:所述根據Boosting算法將所述Bagging算法融合模型和所述Stacking算法融合模型融為一體具體為通過將所述Bagging算法融合模型和所述Stacking算法融合模型迭代產生新的強分類器。
8.一種電子設備,其特征在于包括:處理器;
存儲器;以及程序,其中所述程序被存儲在所述存儲器中,并且被配置成由處理器執行,所述程序包括用于執行權利要求1-7任意一項所述的方法。
9.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于:所述計算機程序被處理器執行如權利要求1-7任意一項所述的方法。
10.一種微博用戶畫像系統,其特征在于包括:
數據獲取模塊:用于獲取微博平臺上的用戶基礎數據;
標注數據模塊:用于對所述用戶基礎數據進行標注處理,得到標注用戶基礎數據;
分類模型生成模塊:創建強分類器,所述強分類器用于訓練所述用戶基礎數據;將所述標注用戶基礎數據作為所述強分類器的輸入進行訓練生成分類模型;
用戶畫像生成模塊:用于將待判定用戶數據輸入到所述分類模型生成模塊中的所述分類模型中,得到用戶畫像;
數據處理模塊,所述數據處理模塊用于將所述用戶基礎數據進行數據清理、預處理以及特征選擇;所述數據處理模塊包括數據清理單元、預處理單元以及特征選擇單元,所述數據清理單元用于將所述用戶基礎數據進行去噪處理,所述預處理單元用于將所述用戶基礎數據進行分詞處理、取出停止詞處理、向量化處理,所述特征選取單元用于使用信息增益的特征選擇方法選擇所述用戶基礎數據中特征用于控制特征空間的維度;
驗證模塊,所述驗證模塊用于驗證所述分類模型,輸入用于驗證的驗證數據至所述分類模型,得到驗證結果,并對所述驗證結果進行評估。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州汪汪信息技術有限公司,未經廣州汪汪信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710807779.1/1.html,轉載請聲明來源鉆瓜專利網。





