[發明專利]敏感文本識別方法、裝置、介質和計算機設備在審

申請號：	201910656205.8	申請日：	2019-07-19
公開（公告）號：	CN110472234A	公開（公告）日：	2019-11-19
發明（設計）人：	陳爽;曾燕玲	申請（專利權）人：	平安科技(深圳)有限公司
主分類號：	G06F17/27	分類號：	G06F17/27;G06F17/22
代理公司：	11330 北京市立方律師事務所	代理人：	劉延喜<國際申請>=<國際公布>=<進入
地址：	518000 廣東省深圳市福田區福***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	文本生僻字替換敏感文本識別計算機存儲介質計算機設備用戶發布轉換表預設辨別查詢個性發布
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明提供了一種敏感文本識別方法、裝置、計算機存儲介質和計算機設備；該方法包括：判斷待識別文本中是否包含生僻字；若包含生僻字，則查詢預設生僻字轉換表確定所述生僻字對應的常用字；將所述待識別文本中的生僻字替換為與其對應的常用字，生成待識別的替換文本；對所述替換文本進行敏感文本識別處理，得到所述替換文本的識別處理結果；根據所述識別處理結果判斷所述待識別文本是否為敏感文本。通過本發明技術方案，能夠更準確地辨別用戶發布的文本是否為敏感文本，并間接地讓用戶能夠發布體現個性的文本，提高用戶的使用體驗。

技術領域

本發明涉及信息處理領域，具體而言，本發明涉及一種敏感文本識別方法、裝置、介質和計算機設備。

背景技術

網絡上的信息隨著互聯網行業的發展變得越來越豐富，但網絡上的一些不符合互聯網使用環境甚至違反國家法律法規的內容，如政治敏感話題、不文明言論等。為了能夠減少這些負面內容對自身的影響，很多網絡平臺通常會采用計算文本詞性序列的出現概率，對出現概率進行分析的方式來對用戶試圖發布的內容進行識別，并將從文本中識別出的敏感信息屏蔽，以保證用戶發布的內容符合互聯網使用環境規范、或符合國家法律法規等的規定，這也能維護自身的品牌形象以及提高正常使用網絡平臺的用戶的使用體驗。

然而，時下很多年輕人交流時喜歡將文本中的常用字替換為一些字形相似的生僻字。如果直接對這種被替換了常用字的文本進行詞性序列分析，得到的詞性序列就與實際情況不符，對該詞性序列進行分析有可能將該文本誤檢為敏感文本，這無法準確辨別用戶發布的文本是否為敏感文本，另一方面也使得用戶無法發布這類能夠表達自己個性化的文本，造成用戶體驗下降。

發明內容

本發明針對現有技術的缺點，提供了一種敏感文本識別方法、裝置、介質和計算機設備，通過本發明技術方案，能夠更準確地辨別用戶發布的文本是否為敏感文本，并間接地讓用戶能夠發布體現個性的文本，提高用戶的使用體驗。

本發明實施例根據第一方面提供了一種敏感文本識別方法，包括：

判斷待識別文本中是否包含生僻字；

若包含生僻字，則查詢預設生僻字轉換表確定所述生僻字對應的常用字；

將所述待識別文本中的生僻字替換為與其對應的常用字，生成待識別的替換文本；

對所述替換文本進行敏感文本識別處理，得到所述替換文本的識別處理結果；

根據所述識別處理結果判斷所述待識別文本是否為敏感文本。

進一步地，所述判斷待識別文本中是否包含生僻字，包括；

檢測待識別文本中是否包含敏感詞匯；

若包含敏感詞匯，則確定所述待識別文本為敏感文本；

若不包含敏感詞匯，則判斷待識別文本中是否包含生僻字。