[發明專利]一種微博數據處理方法、裝置及系統有效
| 申請號: | 201510036778.2 | 申請日: | 2015-01-26 |
| 公開(公告)號: | CN104537118B | 公開(公告)日: | 2017-12-26 |
| 發明(設計)人: | 李壽山;王晶晶;段湘煜;周國棟 | 申請(專利權)人: | 蘇州大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司11227 | 代理人: | 常亮 |
| 地址: | 215123 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據處理 方法 裝置 系統 | ||
技術領域
本申請涉及自然語言處理及社交網絡領域,特別涉及一種微博數據處理方法、裝置及系統。
背景技術
近幾年來,隨著社交網絡的迅猛發展,微型博客(Micro-blog)備受用戶的青睞,如新浪微博、騰訊微博是國內知名的微博網站,截止到2012年12月,新浪微博注冊用戶突破5.03億,騰訊微博則達到了5.4億,而微博用戶每日發博量超過驚人的2億條。由于微博既具有媒體傳播特性,又具有社交網絡特性,因此吸引了眾多研究人員對微博數據進行分析研究。
其中,對微博數據進行分析研究中,識別不同微博網站下的同一用戶是比較重要的,因為能夠識別出不同微博網站下的同一用戶將有利于企業制定精準的廣告投放,有助于研究同一用戶使用不同社交網絡的使用動機分析及其相關分析以此來幫助社交網絡運營更好的開發社交網絡產品。
但是,目前尚不存在一種行之有效的方法來識別出不同微博網站下的同一用戶。
發明內容
為解決上述技術問題,本申請實施例提供一種微博數據處理方法、裝置及系統,以達到對不同微博網站下的同一用戶的識別的目的,技術方案如下:
一種微博數據處理方法,包括:
對待測樣本進行特征抽取,得到待測特征抽取結果值,其中,所述待測樣本為第一微博賬號信息和第二微博賬號信息組成的一對信息,所述第一微博賬號信息對應的賬號所屬微博網站和所述第二微博賬號信息對應的賬號所屬微博網站不同;
確定所述待測特征抽取結果值所包含的各個數值為待分類特征值;
使用最大熵分類器,計算每個待分類特征值在所述待測樣本預設為正類和負類時,對應的待分類正預測子條件概率和待分類負預測子條件概率;
將各個待分類特征值對應的待分類正預測子條件概率進行乘運算,得到待分類正預測條件概率,將各個待分類特征值對應的待分類負預測子條件概率進行乘運算,得到待分類負預測條件概率;
比較所述待分類正預測條件概率和所述待分類負預測條件概率的大小;
在比較結果為所述待分類正預測條件概率最大的情況下,確定所述待測樣本的類別為正;
在比較結果為所述待分類負預測條件概率最大的情況下,確定所述待測樣本的類別為負;
在所述待測樣本的類別為正時,確定所述待測樣本對應的兩個賬號屬于同一用戶;
在所述待測樣本的類別為負時,確定所述待測樣本對應的兩個賬號不屬于同一用戶。
優選的,所述使用最大熵分類器,計算每個待分類特征值在所述待測樣本預設為正類和負類時,對應的待分類正預測子條件概率和待分類負預測子條件概率的過程,包括:
使用最大熵目標函數公式分別計算每個待分類特征值在y分別為+1和-1時,對應的待分類正預測子條件概率和待分類負預測子條件概率,其中,該y為待測樣本,該x為待分類特征值,Pλ(y|x)為待分類預測子條件概率,exp()為自然數e為底的指數函數,fi()為二值特征函數,所述λi為特征函數值fi(x,y)在y為+1時的正最優權值或在y為-1時的負最優權值且相同x對應的不同特征函數值的權值相同,為對每個待分類特征值對應的特征函數值進行求和的函數,為對y為不同值時對應的數據進行求和的函數;
其中,所述y為+1表示所述待測樣本預設為正類,所述y為-1表示所述待測樣本預設為負類,每個待分類特征值對應的各個特征函數值分別對應所述待測樣本的預設類型正和負,在計算待分類正預測子條件概率時,若待分類特征值包含在預設特征值中,則λ為該待分類特征值對應的正最優權值,否則λ為0,在計算待分類負預測子條件概率時,若待分類特征值包含在所述預設特征值中,則λ為該待分類特征值對應的負最優權值,否則λ為0。
優選的,所述第一微博賬號信息和所述第二微博賬號信息各自至少包括:
用戶身份標識號碼ID、昵稱、性別、年齡、所在地和粉絲用戶與關注用戶的比例。
優選的,所述對待測樣本進行特征抽取,得到待測特征抽取結果值的過程,包括:
判斷所述第一微博賬號信息中的用戶ID和所述第二微博賬號信息中的用戶ID是否相同,若相同,則用數值1表示待測特征抽取結果第一子值,若不相同,則用數值0表示待測特征抽取結果第一子值;
判斷所述第一微博賬號信息中的昵稱和所述第二微博賬號信息中的昵稱是否相同,若相同,則用數值1表示待測特征抽取結果第二子值,若不相同,則用數值0表示待測特征抽取結果第二子值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學,未經蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510036778.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種三面四軸加工夾具
- 下一篇:一種用于多流切割設備上的壓緊裝置





