[發明專利]用于識別論壇用戶馬甲賬號的方法和系統有效
| 申請號: | 201410032746.0 | 申請日: | 2014-01-23 |
| 公開(公告)號: | CN103729474B | 公開(公告)日: | 2017-07-21 |
| 發明(設計)人: | 許洪波;樊茜;梁英;程學旗;張國清 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京泛華偉業知識產權代理有限公司11280 | 代理人: | 王勇 |
| 地址: | 100190 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 識別 論壇 用戶 馬甲 賬號 方法 系統 | ||
1.一種用于識別論壇用戶馬甲賬號的方法,所述方法包括:
步驟1,以來自論壇服務器的一組用戶賬號發言的文本作為訓練集,基于訓練集中各用戶賬號及每個文本的特征向量來訓練分類模型,所述分類模型用于判斷文本所屬的用戶賬號;
步驟2,利用訓練好的分類模型確定測試集中每個文本被分類到訓練集中哪個用戶賬號;
步驟3,基于所述分類結果來識別馬甲帳號;
其中,所述步驟3包括:
301)對于測試集中每個用戶賬號的多個文本,按文本所屬的用戶賬號匯總統計出測試集中每個用戶賬號的文本被分類到訓練集中各用戶賬號的數量;
302)對于測試集中待識別用戶賬號,采用下面的兩個公式計算該用戶賬號對訓練集中每個用戶賬號的如下兩組相似度:
其中,yi,j是測試集中待識別的第i個用戶賬號的文本被分類到訓練集中第j個用戶賬號的數量,l表示測試集中用戶賬號的個數,n表示訓練集中用戶賬號的個數;
303)對于待識別的用戶賬號,在所計算得到的兩組相似度中分別取相似度值大的前一個或幾個相似度對應的用戶賬號作為該待識別的用戶賬號的馬甲賬號。
2.根據權利要求1所述的方法,所述步驟1包括:
11)對訓練集中各用戶賬號的每個文本進行分詞及詞性標注;
12)從經分詞和詞性標注后的各個文本中選取特征詞,構建各文本的特征向量;
13)基于訓練集中各用戶賬號以及所構建的各個文本的特征向量來訓練所述分類模型。
3.根據權利要求2所述的方法,所述步驟12)包括:
對于經分詞和詞性標注后的每個文本,從中提取2-gram詞組并統計該詞組在該文本中出現的次數,將所提取的出現次數不低于設定的閾值的詞組作為特征詞;
從每個文本中提取的特征詞共同組成該訓練集的特征詞表;以及
基于該訓練集的特征詞表,構建每個文本的特征向量。
4.根據權利要求2所述的方法,所述步驟12)包括:
從經分詞和詞性標注后的各個文本中選取長度不低于2的且出現頻率不低于2的詞語作為特征詞,以組成該訓練集的特征詞表;以及
基于該訓練集的特征詞表,構建每個文本的特征向量。
5.根據權利要求1所述的方法,所述步驟1中所述分類模型為支持向量機模型。
6.根據權利要求1所述的方法,其中,所述訓練集與所述測試集為同一集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410032746.0/1.html,轉載請聲明來源鉆瓜專利網。





