[發(fā)明專利]一種基于微博用戶關(guān)系的用戶性別識別方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201410494539.7 | 申請日: | 2014-09-24 |
| 公開(公告)號: | CN104268214B | 公開(公告)日: | 2018-01-19 |
| 發(fā)明(設(shè)計)人: | 李壽山;黃磊;周國棟;孔芳 | 申請(專利權(quán))人: | 蘇州大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產(chǎn)權(quán)代理有限公司11227 | 代理人: | 常亮 |
| 地址: | 215137 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 用戶 關(guān)系 性別 識別 方法 系統(tǒng) | ||
1.一種基于微博用戶關(guān)系的用戶性別識別方法,其特征在于,包括以下步驟:
S1、根據(jù)微博網(wǎng)站提供的API接口,收集微博用戶的用戶信息,并對不同用戶進行分類;
在步驟S1中,所述收集微博用戶的用戶信息過程包括以下步驟:
S101、隨機選擇一個用戶作為種子用戶,利用微博提供的API接口抓取用戶的用戶信息;
S102、根據(jù)所抓取的用戶信息中的關(guān)注者和粉絲兩者的userid,繼續(xù)抓取所述關(guān)注者和粉絲兩者的用戶信息,直至抓取數(shù)量達到所需規(guī)模;
S2、根據(jù)已分類用戶的userid獲取其關(guān)注者和粉絲兩者的userid,并將所述關(guān)注者和粉絲兩者的userid整理成文本;
S3、使用信息增益對訓(xùn)練樣本進行特征提取,并使用最大熵分類器將待分類樣本進行分類。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在步驟S1中,所述用戶信息包括用戶的關(guān)注者和粉絲兩者的userid及gender字段,并且對不同用戶根據(jù)gender字段進行分類。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,在步驟S1中,是根據(jù)所抓取的用戶信息中的gender字段值,對用戶類型進行分類,其中g(shù)ender字段值包括m、f及n,m表示男,f表示女,n表示未知。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟S2還包括:將所述關(guān)注者和粉絲兩者的userid整理成文本后,分別存放在文件的兩行,并選取等量的男性及女性用戶文本形成訓(xùn)練樣本,另外選取等量的男性及女性用戶文本形成測試樣本。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟S3還包括,利用訓(xùn)練樣本構(gòu)建最大熵分類器,其中使用的最大熵是MALLET機器學(xué)習(xí)工具包。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟S3所述的信息增益計算方式為:
其中,P(cj)表示cj類文檔在語料中出現(xiàn)的概率,P(ti)表示語料中包含特征項ti的文檔的概率,P(cj|ti)表示文檔包含特征項ti時屬于Cj類時的條件概率,表示語料中不包含特征項ti的文檔的概率,表示文檔不包含特征項ti時屬于Cj的條件概率,m表示類別數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州大學(xué),未經(jīng)蘇州大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410494539.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





