[發明專利]一種智能敏感字詞識別系統在審
| 申請號: | 202110490284.7 | 申請日: | 2021-05-06 |
| 公開(公告)號: | CN113177409A | 公開(公告)日: | 2021-07-27 |
| 發明(設計)人: | 項超 | 申請(專利權)人: | 上海慧洲信息技術有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京高航知識產權代理有限公司 11530 | 代理人: | 喬浩剛 |
| 地址: | 200120 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 智能 敏感 字詞 識別 系統 | ||
1.一種智能敏感字詞識別系統,其特征在于,包括:獲取模塊、文本識別模塊和圖片識別模塊;其中,
獲取模塊用于使用網絡爬蟲對目標網頁的文本和圖片進行抓取,獲取目標網頁的文本信息和圖片信息;
文本識別模塊用于對獲取的文本信息進行預處理,對預處理后的文本信息進行敏感詞識別處理,獲取文本敏感詞識別結果;
圖片識別模塊用于對獲取的圖片信息進行預處理,對預處理后的圖片信息進行文本提取,并根據提取的文本信息進行敏感詞識別處理,獲取圖片敏感詞識別結果。
2.根據權利要求1所述的一種智能敏感字詞識別系統,其特征在于,還包括處理模塊;其中,
處理模塊用于當識別到目標網頁包含敏感信息時,屏蔽該敏感信息。
3.根據權利要求1所述的一種智能敏感字詞識別系統,其特征在于,獲取模塊包括文字獲取單元和圖片獲取單元;其中,
文字獲取單元用于獲取目標網頁中的文本信息;
圖片獲取單元用于獲取目標網頁中的圖片信息。
4.根據權利要求3所述的一種智能敏感字詞識別系統,其特征在于,文本識別模塊,具體包括:分詞單元、主題分類單元和識別單元;其中,
分詞單元用于對獲取的網頁文本信息進行分詞處理,將網頁文本信息拆分成由若干個單詞組成的詞向量集;
主題分類單元用于根據獲取的詞向量集進行主題分類識別,獲取該詞向量集的主題分類標簽;其中主題分類標簽包括:體育、教育、游戲、政府和企業的不同主題的標簽,每個主題分類標簽對應設置有對應的敏感詞庫;
識別單元用于根據該詞向量集的主題分類標簽,調用相應的基于深度學習的敏感詞識別模型對該詞向量集進行敏感詞識別,輸出文本敏感詞識別結果;其中調用的敏感詞識別模型由根據與該主題分類標簽對應的敏感詞庫訓練所得。
5.根據權利要求3所述的一種智能敏感字詞識別系統,其特征在于,圖片識別模塊,具體包括:圖片文本提取單元、圖片文本識別單元和圖片敏感文本識別單元;其中,
圖片文本提取單元用于對獲取的目標網頁中的網頁圖片進行文本識別,并對圖片中的文本部分進行定位,并根據文本部分的定位從該圖片中分割出文本部分圖片;
圖片文本識別單元用于根據獲取的文本部分圖片,基于卷積神經網絡CNN模型對該文本部分圖片進行文本識別處理,輸出該文本部分圖片對應的圖片文本信息;
圖片敏感文本識別單元用于根據獲取的圖片文本信息,基于訓練好的SVM分類器對該圖片文本信息進行敏感信息識別處理,輸出圖片敏感詞識別結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海慧洲信息技術有限公司,未經上海慧洲信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110490284.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種抗菌免噴涂塑料、生產裝置及加工方法
- 下一篇:腎內科護理輔助裝置





