[發(fā)明專利]一種垃圾文本識別方法和裝置有效
| 申請?zhí)枺?/td> | 201710273503.X | 申請日: | 2017-04-21 |
| 公開(公告)號: | CN107239440B | 公開(公告)日: | 2021-05-25 |
| 發(fā)明(設計)人: | 斯義譜;鄭侃侃 | 申請(專利權)人: | 同盾控股有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/289;G06F40/30;G06F16/9535 |
| 代理公司: | 北京潤澤恒知識產(chǎn)權代理有限公司 11319 | 代理人: | 蘇培華 |
| 地址: | 310000 浙江省杭州市余*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 垃圾 文本 識別 方法 裝置 | ||
本發(fā)明實施例提供了一種垃圾文本識別方法和系統(tǒng),該方法和系統(tǒng)應用于互聯(lián)網(wǎng),具體為獲取互聯(lián)網(wǎng)的用戶輸入的文本;對文本的特征進行特征提取,得到文本的多個文本特征;利用預設的垃圾文本識別模型對用戶輸入的文本進行識別,得到文本的垃圾概率。通過用戶輸入的文本的垃圾概率和一定的預設標準可以確定出該文本是否為垃圾文本,并可進一步對判定的垃圾文本采取一定的預防措施,從而能夠避免垃圾文本對互聯(lián)網(wǎng)的健康發(fā)展帶來不利影響。
技術領域
本發(fā)明涉及互聯(lián)網(wǎng)技術領域,特別是涉及一種垃圾文本息識別方法和裝置。
背景技術
隨著現(xiàn)在通信技術的迅猛發(fā)展和互聯(lián)網(wǎng)的普及,在帶給用戶更多方便的同時,垃圾文本問題也充斥著人們的視野。具體來說,一些不良用戶在互聯(lián)網(wǎng)上發(fā)布大量涉政、涉黃、涉賭、虛假廣告、不文明用語等垃圾信息,給互聯(lián)網(wǎng)的健康發(fā)展帶來嚴重的不利影響。因此,有必要對互聯(lián)網(wǎng)上的垃圾文本進行識別,以便對這些垃圾文本進行過濾或者刪除。
發(fā)明內容
有鑒于此,本發(fā)明提供了一種垃圾文本識別方法和裝置,用于對用戶上傳的文本是否垃圾文本進行識別,以避免垃圾文本對互聯(lián)網(wǎng)的健康發(fā)展帶來不利影響。
為了解決上述問題,本發(fā)明公開了一種垃圾文本識別方法,應用于互聯(lián)網(wǎng),所述方法具體包括步驟:
獲取互聯(lián)網(wǎng)的用戶輸入的文本;
對所述文本的特征進行特征提取,得到所述文本的多個文本特征;
利用預設的垃圾文本識別模型對所述文本特征進行識別,得到所述文本的垃圾概率。
優(yōu)選的,所述對所述文本的特征進行特征提取,包括:
利用預先構建的語料庫、停用詞表、關鍵詞表和變異詞表對所述文本進行特征提取,得到所述多個文本特征。
優(yōu)選的,所述關鍵詞表的構建方法包括如下步驟:
根據(jù)所述語料庫對所述文本進行分詞處理,并統(tǒng)計所述分詞處理得到的每個詞或字符所出現(xiàn)的頻次;
將通過分詞處理提取出的各個類別的詞、字符和詞組合作為關鍵詞;
根據(jù)所述關鍵詞和所述頻次得到所述關鍵詞的垃圾概率;
將所述關鍵詞及其對應的所述垃圾概率加入預設的表格,得到所述關鍵詞表。
優(yōu)選的,所述文本特征包括語義文本特征和非語義文本特征,所述利用預設的垃圾文本識別模型對所述文本特征進行識別,包括:
將所述語義文本特征輸入預設的語義特征垃圾文本識別模型進行識別,得到第一概率;
進一步,將所述非語義文本特征輸入預設的非語義特征垃圾文本識別模型進行識別,得到第二概率;
對所述第一概率和所述第二概率進行綜合處理,最終得到所述垃圾概率。
優(yōu)選的,所述非語義特征垃圾文本識別模型為根據(jù)預設的多個關鍵詞表、運用機器學習模型訓練得到。
優(yōu)選的,所述多個非語義文本特征包括關鍵詞垃圾概率、變異詞垃圾概率、標點符號占比、火星文占比、常用字占比、字符類型變換次數(shù)、實體詞個數(shù)占比和連續(xù)n個及以上重復字符出現(xiàn)次數(shù)中的部分或全部,n為正整數(shù)。
優(yōu)選的,在所述對所述文本的特征進行計算步驟之前,還包括:
對所述文本進行預處理,剔除其中無益于垃圾識別的字符。
相應的,為了保證上述方法的實施,本發(fā)明還提供了一種垃圾文本識別系統(tǒng),應用于互聯(lián)網(wǎng),所述系統(tǒng)具體包括:
文本獲取模塊,用于獲取互聯(lián)網(wǎng)的用戶輸入的文本;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同盾控股有限公司,未經(jīng)同盾控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710273503.X/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:基于word2vec的輿情傾向性分析方法
- 下一篇:一種詞典釋義方法及裝置





