[發明專利]一種垃圾文本識別方法在審
| 申請號: | 202010040291.2 | 申請日: | 2020-03-25 |
| 公開(公告)號: | CN111209744A | 公開(公告)日: | 2020-05-29 |
| 發明(設計)人: | 劉星辰;陳曉峰;麻沁甜 | 申請(專利權)人: | 上海勃池信息技術有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/242 |
| 代理公司: | 上海領洋專利代理事務所(普通合伙) 31292 | 代理人: | 俞晨波 |
| 地址: | 200000 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 垃圾 文本 識別 方法 | ||
1.一種垃圾文本識別方法,其特征在于,包括以下步驟:
步驟1、將待識別文本進行間隔式滑動窗口分詞處理,分詞結果與分詞詞典進行匹配,得到關鍵詞;
步驟2、依據每個關鍵詞的特征貢獻比大小,選出待識別文本的特征詞;
步驟3、比較待識別文本的特征詞特征貢獻比與預設閾值的大小;
步驟4、輸出待識別文本的識別結果。
2.根據權利要求1所述的垃圾文本識別方法,其特征在于:步驟2所述特征詞的構建方法包括如下步驟:
步驟11、通過兩個長度為n的滑動窗口在待識別文本上進行滑動,借助中間的間隔來過濾掉待識別文本中所插入的異常字符;
步驟12、在步驟11基礎上,引入一個分詞詞典。通過與詞典進行匹配,獲得關鍵詞結果。
3.根據權利要求1所述的垃圾文本識別方法,其特征在于:將樣本分為垃圾文本和非垃圾文本;
計算待識別文本的所有關鍵詞的特征貢獻比,選取特征貢獻比大于預設值的關鍵詞作為用來判別待識別文本是否為垃圾文本的特征詞;
計算待識別文本特征詞垃圾特征貢獻度的權重,當權重大于閾值時判定待識別文本為垃圾文本。
4.根據權利要求3所述的垃圾文本識別方法,其特征在于:所述垃圾文本樣本,存儲有敏感詞和/或垃圾特征和/或垃圾各式特征。
5.根據權利要求1所述的垃圾文本識別方法,其特征在于:所述計算待識別文本的每個關鍵詞的特征貢獻比具體包括:
對于待識別文本每個關鍵詞,根據公式1計算該特征詞的特征貢獻比:
式中t為該關鍵詞,R(t)為該關鍵詞的特征貢獻比,C(t,Cspam)表示關鍵詞t對垃圾樣本的貢獻度,C(t,Cham)表示關鍵詞t對非垃圾樣本的貢獻度。
6.根據權利要求1所述的垃圾文本識別方法,其特征在于:所述計算待識別文本的每個關鍵詞的特征貢獻度具體包括:
對于待識別文本的每個關鍵詞,根據如下公式2計算該關鍵詞的垃圾特征貢獻度:
式中t為該關鍵詞,α(t,Cspam)為關鍵詞t詞頻因子,P(t|Cspam)表示含該關鍵詞的文本屬于垃圾文本類別的概率,P(t)表示整個樣本集中關鍵詞t出現的概率。
根據如下公式3計算該關鍵詞的非垃圾特征貢獻度:
式中α(t,Cham)為關鍵詞t詞頻因子,P(t|Cham)表示含該關鍵詞的文本屬于垃圾文本類別的概率。
7.根據權利要求5所述的垃圾文本識別方法,其特征在于:所述計算關鍵詞t的詞頻因子具體包括:
根據如下公式4計算該關鍵詞的詞頻因子:
式中tf(t,Ci)表示類別Ci中關鍵詞t出現的次數,n表示類別Ci的樣本數目,dij表示類別Ci中第j個樣本,tf(t,dij)表示關鍵詞t在類別Ci中的第j個樣本出現的次數。
8.根據權利要求3所述的垃圾文本識別方法,其特征在于:所述計算待識別文本特征詞垃圾特征貢獻度的權重具體包括:
根據如下公式5計算待識別文本的垃圾特征權重:
式中Wgt表示待識別文本的垃圾特征權重,m表示待識別文本中包含的特征詞的數目。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海勃池信息技術有限公司,未經上海勃池信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010040291.2/1.html,轉載請聲明來源鉆瓜專利網。





