[發明專利]短文本垃圾識別以及建模方法和裝置有效
| 申請號: | 201310278012.6 | 申請日: | 2013-07-04 |
| 公開(公告)號: | CN103336766A | 公開(公告)日: | 2013-10-02 |
| 發明(設計)人: | 姜貴彬 | 申請(專利權)人: | 微夢創科網絡科技(中國)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京市京大律師事務所 11321 | 代理人: | 張璐;方曉明 |
| 地址: | 100080 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 垃圾 識別 以及 建模 方法 裝置 | ||
1.一種短文本垃圾識別方法,其特征在于,包括:?
對待判定短文本進行分詞得到詞語集合,并對所述待判定短文本進行垃圾特征分析得到分析信息;?
將所述待判定短文本的分析信息以及詞語集合中每個詞語分別與預先確定的特征元素集合中的特征元素進行比較,根據與所述特征元素集合中的特征元素相匹配的詞語或分析信息的特征值,生成所述待判定短文本的詞語特征向量;?
根據所述待判定短文本的詞語特征向量,以及預先訓練出的分類模型,確定所述待判定短文本是否為垃圾文本。?
2.如權利要求1所述的方法,其特征在于,所述分析信息包括如下任一信息,或如下信息的任意組合:?
是否包含聯系方式特征的信息、干擾性符號的占比信息、生僻字的占比信息、繁體字符的占比信息、詞語間的轉移概率、前后詞的詞性間轉移概率、名詞的占比信息、動詞的占比信息、標點符號的占比信息、一元詞的占比信息、二元詞的占比信息、不同詞性詞匯搭配比例、標點符號與名詞的數量比例信息。?
3.如權利要求2所述的方法,其特征在于,所述分析信息的特征值具體包括:?
對于所述是否包含聯系方式特征的信息,其特征值為二值的0或1;?
對于所述干擾性符號的占比信息、或生僻字的占比信息、或繁體字符的占比信息、或詞語間的轉移概率、或前后詞的詞性間轉移概率、或名詞的占比信息、或動詞的占比信息、或標點符號的占比信息、或一元詞的占比信息、或二元詞的占比信息、或不同詞性詞匯搭配比例、或標點符號與名詞的數量比例信息,其特征值為0~1之間的數值。?
4.如權利要求3所述的方法,其特征在于,在所述生成所述待判定短文本的詞語特征向量之前,還包括:?
對與所述特征元素集合中的特征元素相匹配的分析信息的特征值進行歸一化:?
將其中是否包含聯系方式特征的信息的特征值歸一化為二值的0或100;?
將其中干擾性符號的占比信息、或生僻字的占比信息、或繁體字符的占比信息、或詞語間的轉移概率、或前后詞的詞性間轉移概率、或名詞的占比信息、或動詞的占比信息、或標點符號的占比信息、或一元詞的占比信息、或二元詞的占比信息、或不同詞性詞匯搭配比例、或標點符號與名詞的數量比例信息的特征值乘以100,得到0~100之間的歸一化數值。?
5.如權利要求1-4任一所述的方法,其特征在于,所述詞語的特征值根據如下方法得到:?
計算該詞語的TF、IDF值,并根據如下公式1計算出該詞語的特征值:?
log(TF+1.0)×IDF??(公式1)。
6.如權利要求1-4任一所述的方法,其特征在于,所述分類模型的訓練方法,以及所述特征元素集合的確定方法包括:?
對于訓練集中已區分為垃圾文本,或非垃圾文本的每個短文本,進行分詞后得到該短文本的詞語集合,并對該短文本進行垃圾特征分析后得到該短文本的分析信息;?
針對所述訓練集中的每個短文本,計算該短文本的詞語集合中每個詞語的特征值,并計算該短文本的分析信息的特征值后,對計算出的特征值求取類別區分度;將類別區分度大于設定閾值的詞語,以及分析信息作為所述特征元素集合中的特征元素;?
針對所述訓練集中的每個短文本,將該短文本的分析信息以及詞語集合中每個詞語分別與所述特征元素集合中的特征元素進行比較,根據與所述特征元素集合中的特征元素相匹配的詞語或分析信息的特征值,生成該短文本的詞語特征向量;?
根據所述訓練集中各短文本的詞語特征向量訓練出所述分類模型。?
7.如權利要求6所述的方法,其特征在于,所述根據所述訓練集中各短文本的詞語特征向量訓練出所述分類模型具體為:?
運用SVM分類算法、或貝葉斯分類算法、或決策樹分類算法、或最大熵分類算法,根據所述訓練集中各短文本的詞語特征向量訓練出所述分類模型。?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于微夢創科網絡科技(中國)有限公司,未經微夢創科網絡科技(中國)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310278012.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于多特征的視頻索引方法
- 下一篇:一種數據計算節點的生成裝置





