[發明專利]一種敏感詞的處理方法及處理裝置在審
| 申請號: | 202210023915.9 | 申請日: | 2022-01-11 |
| 公開(公告)號: | CN114398873A | 公開(公告)日: | 2022-04-26 |
| 發明(設計)人: | 杜敏強;陳威龍;陳金涂 | 申請(專利權)人: | 山東東葳電子科技有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/289;G06F16/33 |
| 代理公司: | 山東諾誠智匯知識產權代理事務所(普通合伙) 37309 | 代理人: | 佘莉芳 |
| 地址: | 276100 山東省臨*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 敏感 處理 方法 裝置 | ||
1.一種敏感詞的處理方法,其特征在于,所述處理方法包括:
建立敏感詞數據庫;
對待發布文章進行識別,獲取初始敏感詞,將所述初始敏感詞按順序拆分為多個單字,將拆解的單字和與所述初始敏感詞相鄰的前一個字或后一個字進行組合,若組合后能夠成為詞語,則確定初始敏感詞為目標敏感詞,若組合后不能成為詞語或非所述敏感詞數據庫中的敏感詞,則將所述初始敏感詞確定為非敏感詞;
對待發布文章進行識別,獲取所述待發布文章所包含的目標敏感詞以及所述目標敏感詞的出現頻次;
查詢所述敏感詞數據庫,獲取所述目標敏感詞的敏感等級;
根據所述目標敏感詞的敏感等級和出現頻次按照相應的處理策略對所述目標敏感詞進行處理;
所述處理策略包括:當所述目標敏感詞的敏感等級小于設定的等級閾值,則采用設定的字符對所述目標敏感詞進行覆蓋。
2.根據權利要求1所述的處理方法,其特征在于,所述處理策略包括:當所述目標敏感詞的敏感等級不小于設定的等級閾值,則結合上下文判斷攜帶該目標敏感詞的上下文是否具有正面意義,若具有正面意義,則不進行處理,若不具有正面意義,則采用設定的字符對所述敏感詞進行覆蓋。
3.根據權利要求1所述的處理方法,其特征在于,所述處理策略包括:當所述目標敏感詞的敏感等級不小于設定的等級閾值,且所述目標敏感詞的出現頻次不小于設定的頻次閾值,則對所述目標敏感詞進行人工審核。
4.根據權利要求1~3任一項所述的處理方法,其特征在于,所述建立敏感詞數據庫包括:
獲取敏感詞,為每個敏感詞設置第一標識ID1,并為每個敏感詞設置敏感等級,將所述敏感詞、第一標識ID1和所述敏感等級建立映射關系,建立敏感詞數據庫。
5.根據權利要求4所述的處理方法,其特征在于,所述處理方法還包括:
查詢所述敏感詞數據庫,獲取所述目標敏感詞的第一標識ID1;
并基于所述目標敏感詞的出現順序和所述待發布文章的源位置生成第二標識ID2,獲取所述目標敏感詞的出現頻次;
設置所述目標敏感詞對應的替換字符;
將所述目標敏感詞、所述第一標識ID1、所述敏感等級、所述出現頻次、所述第二標識ID2和替換字符建立處理表,并輸出所述處理表。
6.根據權利要求5所述的處理方法,其特征在于,所述處理方法還包括:
當所述目標敏感詞的敏感等級大于設定的等級閾值時,根據所述第二標識ID2判斷所述目標敏感詞的出現順序是否符合設定的要求,若不符合,則調整所述目標敏感詞的出現順序。
7.根據權利要求5所述的處理方法,其特征在于,所述處理方法包括:
在需要進行人工審核時,根據所述第二標識ID2進行溯源確定需要人工審核的文章。
8.根據權利要求5所述的處理方法,其特征在于,所述處理方法包括:
根據所述出現頻次確定所述待發布文章的主體思想,如果所述待發布文章的主體思想涉及到敏感話題,則對所述待發布文章進行標注,以提示需要進行人工審核。
9.一種處理裝置,其特征在于,所述處理裝置包括至少一個處理器;以及,與所述至少一個處理器通信連接的存儲器;其中,所述存儲器存儲有可被所述至少一個處理器執行的計算機程序,所述處理器執行所述計算機程序時實現如權利要求1~9任一項所述的處理方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東東葳電子科技有限公司,未經山東東葳電子科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210023915.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種野蜂誘捕裝置及其誘捕方法
- 下一篇:便攜式寬窄帶融合衛星通信終端和方法





