[發(fā)明專利]一種識別垃圾文本的方法和系統(tǒng)有效
| 申請?zhí)枺?/td> | 200910001577.3 | 申請日: | 2009-01-12 |
| 公開(公告)號: | CN101477544A | 公開(公告)日: | 2009-07-08 |
| 發(fā)明(設(shè)計)人: | 劉懷軍;方高林 | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京德琦知識產(chǎn)權(quán)代理有限公司 | 代理人: | 謝安昆;宋志強 |
| 地址: | 518044廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 識別 垃圾 文本 方法 系統(tǒng) | ||
1.一種識別垃圾文本的方法,其特征在于,該方法包括:
提取垃圾樣本的特征,按照包含該特征的文本屬于垃圾文本的概率從垃圾樣本的所有特征中確定出垃圾特征,并為每個垃圾特征賦予垃圾權(quán)重,由所有賦予了垃圾權(quán)重的垃圾特征組成垃圾特征庫,所述垃圾特征庫中包括敏感詞表;
建立第一垃圾樣本訓(xùn)練庫和第一非垃圾樣本訓(xùn)練庫;
對于敏感詞表中的每個敏感詞,統(tǒng)計第一垃圾樣本訓(xùn)練庫中包含該敏感詞的垃圾樣本,提取包含該敏感詞的各個垃圾樣本中除該敏感詞外的其他特征,判斷每個所述其他特征在包含該敏感詞的所有垃圾樣本中的出現(xiàn)概率是否大于預(yù)定值,由出現(xiàn)概率大于預(yù)定值的所述其他特征組成該敏感詞的正向上下文特征庫;
對于敏感詞表中的每個敏感詞,統(tǒng)計第一非垃圾樣本訓(xùn)練庫中包含該敏感詞的非垃圾樣本,提取包含該敏感詞的各個非垃圾樣本中除該敏感詞外的其他特征,判斷每個所述其他特征在包含該敏感詞的所有非垃圾樣本中的出現(xiàn)概率是否大于預(yù)定值,由出現(xiàn)概率大于預(yù)定值的所述其他特征組成該敏感詞的負(fù)向上下文特征庫;
所述垃圾特征庫還包括正向上下文特征庫和負(fù)向上下文特征庫;
預(yù)先確定正向權(quán)重因子取值和負(fù)向權(quán)重因子取值,正向權(quán)重因子取值與負(fù)向權(quán)重因子取值的和是1;
將待處理文本與垃圾特征庫中的垃圾特征進行匹配,對于匹配到的待處理文本中的每個敏感詞,將待處理文本中除該敏感詞以外的其他特征與該敏感詞對應(yīng)的正向上下文特征庫和負(fù)向上下文特征庫進行匹配,根據(jù)正向權(quán)重因子取值、負(fù)向權(quán)重因子取值以及匹配到的正向上下文特征和負(fù)向上下文特征得到敏感詞的當(dāng)前垃圾權(quán)重;根據(jù)匹配到的所有敏感詞的當(dāng)前垃圾權(quán)重計算待處理文本的第一垃圾權(quán)重,根據(jù)待處理文本的第一垃圾權(quán)重判斷待處理文本是否是垃圾文本。
2.如權(quán)利要求1所述的方法,其特征在于,所述按照包含該特征的文本屬于垃圾文本的概率從垃圾樣本的所有特征中確定出垃圾特征包括:
將同時出現(xiàn)在同一垃圾樣本中的概率大于第一預(yù)定閾值的兩個以上的特征組合為組合垃圾特征,將該組合垃圾特征確定為用于組成垃圾特征庫的垃圾特征。
3.如權(quán)利要求2所述的方法,其特征在于,所述組合垃圾特征包括組合敏感詞;
所述組成垃圾特征庫包括:
建立組合敏感詞的詞表。
4.如權(quán)利要求3所述的方法,其特征在于,該方法進一步包括:
為組合敏感詞賦予組合敏感詞標(biāo)識;
所述為每個垃圾特征賦予垃圾權(quán)重包括:為組合敏感詞賦予的垃圾權(quán)重不低于其他垃圾特征的垃圾權(quán)重;
所述將待處理文本與垃圾特征庫中的垃圾特征進行匹配包括:
根據(jù)垃圾特征庫中組合敏感詞的標(biāo)識,判斷待處理文本中是否包含能夠組合成該組合敏感詞的特征,若是,則判定匹配到組合敏感詞。
5.如權(quán)利要求4所述的方法,其特征在于,所述根據(jù)匹配到的所有垃圾特征的垃圾權(quán)重判斷待處理文本是否是垃圾文本包括:
當(dāng)匹配到的所有垃圾特征各自的垃圾權(quán)重有大于第二預(yù)定閾值的垃圾權(quán)重時,判定待處理文本是垃圾文本;
所述第二預(yù)定閾值小于組合敏感詞的垃圾權(quán)重。
6.如權(quán)利要求2所述的方法,其特征在于,所述組合垃圾特征包括順序組合垃圾特征;
所述將同時出現(xiàn)在同一垃圾樣本中的概率大于預(yù)定值的兩個以上的特征組合為組合垃圾特征包括:
建立第二垃圾樣本訓(xùn)練庫和第二非垃圾樣本訓(xùn)練庫;
對第二垃圾樣本訓(xùn)練庫中的垃圾樣本進行分詞處理,將同時出現(xiàn)在同一垃圾樣本中的兩個以上的詞按照該兩個以上的詞在該同一垃圾樣本中出現(xiàn)的先后順序組合為待選的順序組合垃圾特征;
根據(jù)待選的順序組合垃圾特征在第二垃圾樣本訓(xùn)練庫和第二非垃圾樣本訓(xùn)練庫中的出現(xiàn)概率,從待選的順序組合垃圾特征中確定出順序組合垃圾特征;
所述待處理文本的特征包括順序組合特征,所述提取待處理文本的特征包括:
對待處理文本進行分詞處理,將該待處理文本的兩個以上的詞按照該兩以上的詞在待處理文本中的出現(xiàn)順序組合為順序組合特征;
所述根據(jù)匹配到的所有垃圾特征的垃圾權(quán)重判斷待處理文本是否是垃圾文本包括:
根據(jù)匹配到的所有順序組合垃圾特征計算待處理文本的第二垃圾權(quán)重,根據(jù)待處理文本的第二垃圾權(quán)重判斷待處理文本是否是垃圾文本。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910001577.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





