[發明專利]基于貝葉斯模型的文本垃圾識別方法和系統有效
| 申請號: | 201310278616.0 | 申請日: | 2013-07-04 | 
| 公開(公告)號: | CN103324745A | 公開(公告)日: | 2013-09-25 | 
| 發明(設計)人: | 姜貴彬 | 申請(專利權)人: | 微夢創科網絡科技(中國)有限公司 | 
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 | 
| 代理公司: | 北京市京大律師事務所 11321 | 代理人: | 張璐;方曉明 | 
| 地址: | 100080 北京*** | 國省代碼: | 北京;11 | 
| 權利要求書: | 查看更多 | 說明書: | 查看更多 | 
| 摘要: | |||
| 搜索關鍵詞: | 基于 貝葉斯 模型 文本 垃圾 識別 方法 系統 | ||
技術領域
本發明涉及互聯網領域,尤其涉及一種基于貝葉斯模型的文本垃圾識別方法和系統。
背景技術
互聯網技術迅猛發展,網上信息爆炸式增長;隨著生活、工作節奏的加快,人們越來越傾向于用簡短的文字來溝通交流。以twitter(推特)和新浪微博為代表的以較小的文本來生產、組織和傳播信息的SNS(Social?Network?Service,社會性網絡服務)網站,獲得網友的青睞。
目前,對互聯網上的文本內容進行自動垃圾識別的主要方法是,采用基于向量模型的方法,對于某個文本內容將其分類為垃圾文本,或非垃圾文本;該方法包括:訓練階段和識別階段。
在訓練階段,根據訓練集中大量的文本進行建模的方法,通常如圖1所示,包括如下步驟:
S101:對于訓練集中已區分為垃圾文本,或非垃圾文本的各個文本,進行分詞得到每個文本的詞語集合。
S102:根據每個文本的詞語集合計算得到每個文本的詞語特征向量。
具體地,針對每個文本,根據該文本的詞語集合中的每個詞語,確定該詞語在該文本中的TF(Term?Frequency,詞頻)值,計算該詞語在訓練集中的IDF(Inverse?Document?Frequency,逆向文件頻率)值,根據該詞語的TF值和IDF值,如下公式1計算該詞語的特征值:
log(TF+1.0)×IDF????(公式1)
將該文本的詞語集合中各詞語的特征值組成該文本的詞語特征向量。
S103:基于訓練集中每個文本的詞語特征向量建立向量模型。
例如,根據訓練集中每個文本的詞語特征向量,運用SVM分類算法、或最大熵分類算法等建立向量模型。
在識別階段,對于待判定文本,進行分詞得到該待判定文本的詞語集合后,根據該待判定文本的詞語集合計算出該待判定文本的詞語特征向量;根據待判定文本的詞語特征向量與訓練階段建立的向量模型來判斷待判定文本是否為垃圾文本。
但是,在實際應用中,本發明的發明人發現,運用現有技術的建模和文本內容的垃圾識別方法的系統,魯棒性較差,容易受到攻擊:例如,在訓練階段,訓練集中某個文本中若大量出現某個關鍵詞,則會出現分類結果被該關鍵詞綁架的情況,導致分類結果中劃分的垃圾文本超平面、或非垃圾文本超平面因該關鍵詞的干擾而有較大偏離;因此,有必要提供一種具有更好魯棒性的建模和文本內容的垃圾識別的方法和系統。
發明內容
針對上述現有技術存在的缺陷,本發明提供了一種基于貝葉斯模型的文本垃圾識別方法和系統,用以提高文本垃圾識別系統的魯棒性。
根據本發明的一個方面,提供了一種基于貝葉斯模型的文本垃圾識別方法,包括:
對待判定文本進行分詞,得到所述待判定文本的關鍵詞;
針對所述待判定文本的每個關鍵詞,計算該關鍵詞的特征值,并在貝葉斯模型中查找與該關鍵詞相匹配的特征詞,獲取查找到的特征詞的正向權重值和負向權重值,分別作為該關鍵詞的正向權重值和負向權重值;其中,所述特征詞的正、負向權重值分別指的是所述特征詞屬于非垃圾文本、垃圾文本的概率權重值;
根據所述待判定文本的每個關鍵詞的特征值以及正向權重值,計算所述待判定文本的正向分類值;根據所述待判定文本的每個關鍵詞的特征值以及負向權重值,計算所述待判定文本的負向分類值;其中,所述待判定文本的正、負向分類值分別指的是所述待判定文本為非垃圾文本、垃圾文本的概率權重值;
根據所述待判定文本的正向分類值和負向分類值,確定所述待判定文本是否為垃圾文本。
其中,所述貝葉斯模型為預先得到的:
對于訓練集中已區分為垃圾文本,或非垃圾文本的每個文本,進行分詞后得到該文本的關鍵詞,并計算該文本的每個關鍵詞的類別相關度;
從所述訓練集的各文本的關鍵詞中,選取類別相關度高于設定值的關鍵詞作為所述貝葉斯模型的特征詞;
針對所述貝葉斯模型的每個特征詞,根據該特征詞的numg以及所述訓練集中非垃圾文本總數,計算出該特征詞的正向權重值;根據該特征詞的numb以及所述訓練集中垃圾文本總數,計算出該特征詞的負向權重值;其中,numg為所述訓練集的非垃圾文本中包含有該特征詞的文本的數量;numb為所述訓練集的垃圾文本中包含有該特征詞的文本的數量。
較佳地,所述計算該文本的每個關鍵詞的類別相關度具體包括:
對于該文本的每個關鍵詞,根據如下公式2計算該關鍵詞的類別相關度:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于微夢創科網絡科技(中國)有限公司,未經微夢創科網絡科技(中國)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310278616.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種純水液壓設備用耐高溫蒸汽軟管
 - 下一篇:一種通用截止閥
 





