[發明專利]一種基于中文分詞識別技術的垃圾信息剔除系統及方法在審
| 申請號: | 202011391134.2 | 申請日: | 2020-12-01 |
| 公開(公告)號: | CN112380323A | 公開(公告)日: | 2021-02-19 |
| 發明(設計)人: | 楊奚誠;王誠;熊瑛;盧倩;夏洋陽 | 申請(專利權)人: | 合肥大多數信息科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/289;G06N3/08;G06N3/04 |
| 代理公司: | 合肥正則元起專利代理事務所(普通合伙) 34160 | 代理人: | 劉生昕 |
| 地址: | 230000 安徽省*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 中文 分詞 識別 技術 垃圾 信息 剔除 系統 方法 | ||
1.一種基于中文分詞識別技術的垃圾信息剔除系統,其特征在于,包括處理器、IP分析模塊、信息發布模塊、數據存儲模塊、短信預處理模塊、智能模型模塊和短信分析模塊;
所述短信預處理模塊用于對智能終端接收到的短信進行預處理獲取初篩短信,并通過處理器將初篩短信發送至短信分析模塊;
所述短信分析模塊依次通過智能模型和關鍵詞分析技術對初篩短信進行分析,并根據分析結果篩選出垃圾短信,同時通過處理器將IP分析信號發送至IP分析模塊;
所述智能模型模塊用于獲取智能模型;
所述IP分析模塊用于分析垃圾短信的IP地址。
2.根據權利要求1所述的一種基于中文分詞識別技術的垃圾信息剔除系統,其特征在于,所述短信預處理模塊用于對短信進行初步篩選,包括:
智能終端接收到短信之后發送至短信預處理模塊;所述智能終端包括智能手機和平板電腦;
所述短信預處理模塊接收到短信之后獲取短信的發送號碼,通過處理器獲取存儲模塊中存儲的短信標記數據庫;
將發送號碼與短信數據庫中的號碼進行匹配,當匹配到結果時,則發送號碼對應的短信攔截,并自動從智能終端中剔除;當匹配不到結果時,將短信標記為初篩短信,通過處理器將初篩短信和短信分析信號發送至短信分析模塊;
通過處理器將短信分析信號的發送記錄發送至數據存儲模塊進行存儲。
3.根據權利要求1所述的一種基于中文分詞識別技術的垃圾信息剔除系統,其特征在于,所述短信分析模塊用于分析初選短信,包括:
通過處理器獲取數據存儲模塊中的敏感詞庫;所述敏感詞庫中至少包括一種敏感詞類型的關鍵詞,所述敏感詞類型包括毒品和涉黃;
通過中文分詞技術對初篩短信進行提取獲取驗證關鍵詞,將驗證關鍵詞與敏感詞庫中的關鍵詞進行匹配,當驗證關鍵詞在敏感詞庫中匹配到結果時,則判定初篩為垃圾短信,并自動從智能終端中剔除;當驗證關鍵詞在敏感詞庫中匹配不到結果時,則獲取數據存儲模塊中的智能模型;
將初篩短信轉換成輸入數組并標記為驗證輸入數組,將驗證輸入數組輸入到智能模型中對初篩短信進行判斷;
當初篩短信被判定為垃圾短信時,則自動從智能終端中剔除。
4.根據權利要求1所述的一種基于中文分詞識別技術的垃圾信息剔除系統,其特征在于,所述智能模型模塊用于訓練神經網絡模型獲取智能模型,包括:
通過互聯網獲取垃圾短信數據庫,并對垃圾短信進行編號;
將垃圾短信通過預處理之后轉換成神經網絡模型的輸入數組,將垃圾短信對應的編號作為神經網絡的輸出數組對神經網絡模型進行訓練;所述神經網絡模型包括誤差前饋神經網絡和RBF神經網絡;
將訓練完成的神經網絡模型標記為智能模型,通過處理器將智能模型發送至數據存儲模塊進行存儲。
5.根據權利要求1所述的一種基于中文分詞識別技術的垃圾信息剔除系統,其特征在于,所述IP分析模塊接收到IP分析信號之后對垃圾短信的IP地址進行分析,當IP地址發送的垃圾短信次數超過預設垃圾短信次數時,則將IP地址加入到IP黑名單中。
6.根據權利要求1所述的一種基于中文分詞識別技術的垃圾信息剔除系統,其特征在于,所述信息發布模塊用于發布垃圾短信的剔除成果,定期將垃圾短信的剔除記錄發布至智能終端。
7.一種基于中文分詞識別技術的垃圾信息剔除方法,其特征在于,所述垃圾信息剔除方法包括以下步驟:
步驟一:智能終端接收到短信之后發送至短信預處理模塊;所述短信預處理模塊接收到短信之后獲取短信的發送號碼,通過處理器獲取存儲模塊中存儲的短信標記數據庫;將發送號碼與短信數據庫中的號碼進行匹配,當匹配到結果時,則發送號碼對應的短信攔截,并自動從智能終端中剔除;當匹配不到結果時,將短信標記為初篩短信,通過處理器將初篩短信和短信分析信號發送至短信分析模塊;
步驟二:通過處理器獲取數據存儲模塊中的敏感詞庫;通過中文分詞技術對初篩短信進行提取獲取驗證關鍵詞,將驗證關鍵詞與敏感詞庫中的關鍵詞進行匹配,當驗證關鍵詞在敏感詞庫中匹配到結果時,則判定初篩為垃圾短信,并自動從智能終端中剔除;當驗證關鍵詞在敏感詞庫中匹配不到結果時,則獲取數據存儲模塊中的智能模型;將初篩短信轉換成輸入數組并標記為驗證輸入數組,將驗證輸入數組輸入到智能模型中對初篩短信進行判斷;當初篩短信被判定為垃圾短信時,則自動從智能終端中剔除。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥大多數信息科技有限公司,未經合肥大多數信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011391134.2/1.html,轉載請聲明來源鉆瓜專利網。





