[發明專利]敏感文本識別方法、裝置、介質和計算機設備在審
| 申請號: | 201910656205.8 | 申請日: | 2019-07-19 |
| 公開(公告)號: | CN110472234A | 公開(公告)日: | 2019-11-19 |
| 發明(設計)人: | 陳爽;曾燕玲 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/22 |
| 代理公司: | 11330 北京市立方律師事務所 | 代理人: | 劉延喜<國際申請>=<國際公布>=<進入 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 生僻字 替換 敏感 文本識別 計算機存儲介質 計算機設備 用戶發布 轉換表 預設 辨別 查詢 個性 發布 | ||
本發明提供了一種敏感文本識別方法、裝置、計算機存儲介質和計算機設備;該方法包括:判斷待識別文本中是否包含生僻字;若包含生僻字,則查詢預設生僻字轉換表確定所述生僻字對應的常用字;將所述待識別文本中的生僻字替換為與其對應的常用字,生成待識別的替換文本;對所述替換文本進行敏感文本識別處理,得到所述替換文本的識別處理結果;根據所述識別處理結果判斷所述待識別文本是否為敏感文本。通過本發明技術方案,能夠更準確地辨別用戶發布的文本是否為敏感文本,并間接地讓用戶能夠發布體現個性的文本,提高用戶的使用體驗。
技術領域
本發明涉及信息處理領域,具體而言,本發明涉及一種敏感文本識別方法、裝置、介質和計算機設備。
背景技術
網絡上的信息隨著互聯網行業的發展變得越來越豐富,但網絡上的一些不符合互聯網使用環境甚至違反國家法律法規的內容,如政治敏感話題、不文明言論等。為了能夠減少這些負面內容對自身的影響,很多網絡平臺通常會采用計算文本詞性序列的出現概率,對出現概率進行分析的方式來對用戶試圖發布的內容進行識別,并將從文本中識別出的敏感信息屏蔽,以保證用戶發布的內容符合互聯網使用環境規范、或符合國家法律法規等的規定,這也能維護自身的品牌形象以及提高正常使用網絡平臺的用戶的使用體驗。
然而,時下很多年輕人交流時喜歡將文本中的常用字替換為一些字形相似的生僻字。如果直接對這種被替換了常用字的文本進行詞性序列分析,得到的詞性序列就與實際情況不符,對該詞性序列進行分析有可能將該文本誤檢為敏感文本,這無法準確辨別用戶發布的文本是否為敏感文本,另一方面也使得用戶無法發布這類能夠表達自己個性化的文本,造成用戶體驗下降。
發明內容
本發明針對現有技術的缺點,提供了一種敏感文本識別方法、裝置、介質和計算機設備,通過本發明技術方案,能夠更準確地辨別用戶發布的文本是否為敏感文本,并間接地讓用戶能夠發布體現個性的文本,提高用戶的使用體驗。
本發明實施例根據第一方面提供了一種敏感文本識別方法,包括:
判斷待識別文本中是否包含生僻字;
若包含生僻字,則查詢預設生僻字轉換表確定所述生僻字對應的常用字;
將所述待識別文本中的生僻字替換為與其對應的常用字,生成待識別的替換文本;
對所述替換文本進行敏感文本識別處理,得到所述替換文本的識別處理結果;
根據所述識別處理結果判斷所述待識別文本是否為敏感文本。
進一步地,所述判斷待識別文本中是否包含生僻字,包括;
檢測待識別文本中是否包含敏感詞匯;
若包含敏感詞匯,則確定所述待識別文本為敏感文本;
若不包含敏感詞匯,則判斷待識別文本中是否包含生僻字。
進一步地,所述判斷待識別文本中是否包含生僻字,包括:
獲取待識別文本,確定所述待識別文本的詞性序列信息及其對應的出現概率;
若所述出現概率低于預設閾值,則判斷所述待識別文本中是否包含生僻字。
進一步地,所述對所述替換文本進行敏感文本識別處理,得到所述替換文本的識別處理結果,包括:
查詢預設詞性數據庫確定所述替換文本對應的詞性序列信息;
使用訓練好的詞性序列處理模型對所述詞性序列信息進行處理,得到所述詞性序列信息對應的出現概率;
將所述出現概率作為所述替換文本的識別處理結果。
進一步地,所述查詢預設詞性數據庫確定所述替換文本對應的詞性序列信息,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910656205.8/2.html,轉載請聲明來源鉆瓜專利網。





