日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]基于貝葉斯模型的文本垃圾識別方法和系統有效

專利信息
申請號: 201310278616.0 申請日: 2013-07-04
公開(公告)號: CN103324745A 公開(公告)日: 2013-09-25
發明(設計)人: 姜貴彬 申請(專利權)人: 微夢創科網絡科技(中國)有限公司
主分類號: G06F17/30 分類號: G06F17/30;G06F17/27
代理公司: 北京市京大律師事務所 11321 代理人: 張璐;方曉明
地址: 100080 北京*** 國省代碼: 北京;11
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 基于 貝葉斯 模型 文本 垃圾 識別 方法 系統
【說明書】:

技術領域

發明涉及互聯網領域,尤其涉及一種基于貝葉斯模型的文本垃圾識別方法和系統。

背景技術

互聯網技術迅猛發展,網上信息爆炸式增長;隨著生活、工作節奏的加快,人們越來越傾向于用簡短的文字來溝通交流。以twitter(推特)和新浪微博為代表的以較小的文本來生產、組織和傳播信息的SNS(Social?Network?Service,社會性網絡服務)網站,獲得網友的青睞。

目前,對互聯網上的文本內容進行自動垃圾識別的主要方法是,采用基于向量模型的方法,對于某個文本內容將其分類為垃圾文本,或非垃圾文本;該方法包括:訓練階段和識別階段。

在訓練階段,根據訓練集中大量的文本進行建模的方法,通常如圖1所示,包括如下步驟:

S101:對于訓練集中已區分為垃圾文本,或非垃圾文本的各個文本,進行分詞得到每個文本的詞語集合。

S102:根據每個文本的詞語集合計算得到每個文本的詞語特征向量。

具體地,針對每個文本,根據該文本的詞語集合中的每個詞語,確定該詞語在該文本中的TF(Term?Frequency,詞頻)值,計算該詞語在訓練集中的IDF(Inverse?Document?Frequency,逆向文件頻率)值,根據該詞語的TF值和IDF值,如下公式1計算該詞語的特征值:

log(TF+1.0)×IDF????(公式1)

將該文本的詞語集合中各詞語的特征值組成該文本的詞語特征向量。

S103:基于訓練集中每個文本的詞語特征向量建立向量模型。

例如,根據訓練集中每個文本的詞語特征向量,運用SVM分類算法、或最大熵分類算法等建立向量模型。

在識別階段,對于待判定文本,進行分詞得到該待判定文本的詞語集合后,根據該待判定文本的詞語集合計算出該待判定文本的詞語特征向量;根據待判定文本的詞語特征向量與訓練階段建立的向量模型來判斷待判定文本是否為垃圾文本。

但是,在實際應用中,本發明的發明人發現,運用現有技術的建模和文本內容的垃圾識別方法的系統,魯棒性較差,容易受到攻擊:例如,在訓練階段,訓練集中某個文本中若大量出現某個關鍵詞,則會出現分類結果被該關鍵詞綁架的情況,導致分類結果中劃分的垃圾文本超平面、或非垃圾文本超平面因該關鍵詞的干擾而有較大偏離;因此,有必要提供一種具有更好魯棒性的建模和文本內容的垃圾識別的方法和系統。

發明內容

針對上述現有技術存在的缺陷,本發明提供了一種基于貝葉斯模型的文本垃圾識別方法和系統,用以提高文本垃圾識別系統的魯棒性。

根據本發明的一個方面,提供了一種基于貝葉斯模型的文本垃圾識別方法,包括:

對待判定文本進行分詞,得到所述待判定文本的關鍵詞;

針對所述待判定文本的每個關鍵詞,計算該關鍵詞的特征值,并在貝葉斯模型中查找與該關鍵詞相匹配的特征詞,獲取查找到的特征詞的正向權重值和負向權重值,分別作為該關鍵詞的正向權重值和負向權重值;其中,所述特征詞的正、負向權重值分別指的是所述特征詞屬于非垃圾文本、垃圾文本的概率權重值;

根據所述待判定文本的每個關鍵詞的特征值以及正向權重值,計算所述待判定文本的正向分類值;根據所述待判定文本的每個關鍵詞的特征值以及負向權重值,計算所述待判定文本的負向分類值;其中,所述待判定文本的正、負向分類值分別指的是所述待判定文本為非垃圾文本、垃圾文本的概率權重值;

根據所述待判定文本的正向分類值和負向分類值,確定所述待判定文本是否為垃圾文本。

其中,所述貝葉斯模型為預先得到的:

對于訓練集中已區分為垃圾文本,或非垃圾文本的每個文本,進行分詞后得到該文本的關鍵詞,并計算該文本的每個關鍵詞的類別相關度;

從所述訓練集的各文本的關鍵詞中,選取類別相關度高于設定值的關鍵詞作為所述貝葉斯模型的特征詞;

針對所述貝葉斯模型的每個特征詞,根據該特征詞的numg以及所述訓練集中非垃圾文本總數,計算出該特征詞的正向權重值;根據該特征詞的numb以及所述訓練集中垃圾文本總數,計算出該特征詞的負向權重值;其中,numg為所述訓練集的非垃圾文本中包含有該特征詞的文本的數量;numb為所述訓練集的垃圾文本中包含有該特征詞的文本的數量。

較佳地,所述計算該文本的每個關鍵詞的類別相關度具體包括:

對于該文本的每個關鍵詞,根據如下公式2計算該關鍵詞的類別相關度:

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于微夢創科網絡科技(中國)有限公司,未經微夢創科網絡科技(中國)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201310278616.0/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 欧美一级久久久| 老女人伦理hd| 亚洲一区欧美| 日韩亚洲国产精品| 狠狠色成色综合网| 日韩av中文字幕第一页| 97精品国产aⅴ7777| 性色av香蕉一区二区| 国产一区二区精品免费| 日韩精品一区在线观看| 欧美激情午夜| 最新av中文字幕| 亚洲国产精品日韩av不卡在线| 91嫩草入口| 久久国产精品精品国产| 欧美日韩中文字幕一区| 国产一级一区二区| 国产偷亚洲偷欧美偷精品| 色乱码一区二区三区网站| 久久久久亚洲精品| 免费精品一区二区三区第35| 色婷婷精品久久二区二区6| 国产99久久久久久免费看| 综合久久色| 粉嫩久久久久久久极品| 99精品一区二区| 91精品国产高清一二三四区| 欧美日韩综合一区二区| 亚洲五码在线| 久久97国产| 韩日av一区二区三区| 久久久久国产精品嫩草影院| 国产精品久久久不卡| 少妇高潮在线观看| 日本一区二区电影在线观看| 久久福利免费视频| 久久99精品久久久野外直播内容| 91看片淫黄大片91| 91久久精品久久国产性色也91| 国产色婷婷精品综合在线手机播放| 国产精品天堂网| 亚洲国产精品一区二区久久hs| 亚洲精品无吗| 国产一区二区资源| 99久久精品国| 国产高清精品一区二区| 日本高清不卡二区| 久久99精| 国产精品久久99| 玖玖精品国产| 日韩精品中文字幕一区| 久久九九国产精品| 欧美精品一区二区三区在线四季| 国产一区二区视频播放| 91av中文字幕| 午夜剧场一区| 国产精品久久99| 国产精品视频免费看人鲁| 色妞妞www精品视频| 国产片91| 97精品超碰一区二区三区| 午夜爱爱电影| 国产偷久久一区精品69| 欧美一区二区三区片| 狠狠躁夜夜| 国产精品69av| 午夜精品一二三区| 国产精品第157页| 国产色婷婷精品综合在线播放| 狠狠躁夜夜躁xxxxaaaa| 九一国产精品| 国产精品乱码久久久久久久久| 中文字幕一区三区| 欧美日韩一区视频| 免费视频拗女稀缺一区二区| 国产99久久久精品视频| 午夜精品影视| 欧美日韩国产一区在线| 免费看片一区二区三区| 国内精品久久久久影院日本| 首页亚洲欧美制服丝腿| 日韩精品免费看|