[發明專利]敏感詞識別方法、裝置、電子設備及存儲介質有效
| 申請號: | 202110426541.0 | 申請日: | 2021-04-20 |
| 公開(公告)號: | CN113095076B | 公開(公告)日: | 2023-08-22 |
| 發明(設計)人: | 彭晶晶 | 申請(專利權)人: | 平安銀行股份有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F16/35;G06F40/242 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 敏感 識別 方法 裝置 電子設備 存儲 介質 | ||
本發明涉及一種人工智能領域,揭露了一種敏感詞識別方法,包括:對文本進行分詞和去重,得到標準詞語;計算標準詞語在文本中的重要度得分,根據重要度得分,從標準詞語中提取關鍵詞,得到關鍵詞語;利用預訓練的敏感詞識別模型對關鍵詞語進行敏感文字提取,得到敏感文字,對敏感文字進行序列提取,得到第一敏感詞;計算關鍵詞語與預設敏感詞庫中詞語的匹配度,根據匹配度,從關鍵詞語中選取滿足預設條件的詞語,得到第二敏感詞;利用預構建的正則表達式對第一敏感詞和第二敏感詞進行校驗,將檢驗成功的第一敏感詞和第二敏感詞作為目標敏感詞。此外,本發明還涉及區塊鏈技術,所述目標敏感詞可存儲于區塊鏈中。本發明可以提高敏感詞識別的準確性。
技術領域
本發明涉及人工智能領域,尤其涉及一種敏感詞識別方法、裝置、電子設備及計算機可讀存儲介質。
背景技術
敏感詞指的是不文明詞匯,具有反政、色情、反動及言語不當的詞匯,因此,敏感詞識別可以理解為查找出文本中不文明詞匯的過程,其應用于不同的行業領域中,例如在金融宣傳場景當中,金融企業的各個營銷單元每天都產出海量宣傳文案,這些宣傳文案良莠不齊,容易出現金融敏感詞,為保障宣傳文案的合法合規性,通常企業會在宣傳文案發布前,進行宣傳文案的審核,找出宣傳文案中的敏感詞,從而規避企業宣傳的非法性。
目前文本的敏感詞通常是基于字符匹配進行識別,即通過字符匹配算法將文本中每個字符進行掃描,如果當某一個字符是敏感字表中任意一個敏感詞的第一個字符,則觸發敏感詞檢索,但由于文本中涉及到大量錯綜復雜的詞語,若是基于字符匹配很容易造成敏感詞的模糊匹配,影響敏感詞識別的準確率。
發明內容
本發明提供一種敏感詞識別方法、裝置、電子設備及計算機可讀存儲介質,其主要目的在于提高敏感詞識別的準確性。
為實現上述目的,本發明提供的一種敏感詞識別方法,包括:
對文本進行分詞,得到初始詞語,并對所述初始詞語進行去重,得到標準詞語;
計算所述標準詞語在所述文本中的重要度得分,根據所述重要度得分,從所述標準詞語中提取關鍵詞,得到關鍵詞語;
利用預先訓練的敏感詞識別模型對所述關鍵詞語進行敏感文字提取,得到敏感文字,并對所述敏感文字進行序列提取,得到第一敏感詞;
計算所述關鍵詞語與預設敏感詞庫中詞語的匹配度,根據所述匹配度,從所述關鍵詞語中選取滿足預設條件的詞語,得到第二敏感詞;
利用預構建的正則表達式對所述第一敏感詞和所述第二敏感詞進行校驗,并將檢驗成功的所述第一敏感詞和所述第二敏感詞作為目標敏感詞。
可選地,所述對所述初始詞語進行去重,得到標準詞語,包括:
通過遍歷操作依次從所述初始詞語中選取一個詞語作為當前初始詞語;
計算所述當前初始詞語與所述初始詞語中剩余每個初始詞語之間的距離值;
在所述初始詞語中刪除與所述當前初始詞語的距離值大于預設閾值的初始詞語,并將剩余的初始詞語作為標準詞語。
可選地,所述計算所述標準詞語在所述文本中的重要度得分,包括:
計算所述標準詞語中任意兩個詞語在所述文本中的依存關聯度;
根據所述依存關聯度,計算所述任意兩個詞語的引力;
根據所述依存關聯度和所述引力,計算所述任意兩個詞語的關聯強度;
根據所述關聯強度,計算所述任意兩個詞語的重要度得分。
可選地,所述計算所述標準詞語中任意兩個詞語在所述文本中的依存關聯度,包括:
計算所述標準詞語中任意兩個詞語在所述文本中的依存路徑長度;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安銀行股份有限公司,未經平安銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110426541.0/2.html,轉載請聲明來源鉆瓜專利網。





