[發明專利]敏感詞識別方法、裝置、電子設備及存儲介質有效
| 申請號: | 202110426541.0 | 申請日: | 2021-04-20 |
| 公開(公告)號: | CN113095076B | 公開(公告)日: | 2023-08-22 |
| 發明(設計)人: | 彭晶晶 | 申請(專利權)人: | 平安銀行股份有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F16/35;G06F40/242 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 敏感 識別 方法 裝置 電子設備 存儲 介質 | ||
1.一種敏感詞識別方法,其特征在于,所述方法包括:
對文本進行分詞,得到初始詞語,并對所述初始詞語進行去重,得到標準詞語;
計算所述標準詞語在所述文本中的重要度得分,根據所述重要度得分,從所述標準詞語中提取關鍵詞,得到關鍵詞語;
利用預先訓練的敏感詞識別模型中敏感詞分類模塊的卷積層對所述關鍵詞語進行卷積操作,得到初始敏感文字,利用所述敏感詞識別模型中敏感詞分類模塊的池化層對所述初始敏感文字進行降維,得到降維敏感文字,利用所述敏感詞識別模型中敏感詞分類模塊的全連接層輸出所述降維敏感文字,得到敏感文字,并對所述敏感文字進行序列提取,得到所述敏感文字的文字序列和提取數量,并根據所述文字序列和所述提取數量確定敏感文字的位置序列,得到第一敏感詞;
根據敏感詞匹配公式計算所述關鍵詞語與預設敏感詞庫中詞語的匹配度,根據所述匹配度,從所述關鍵詞語中選取滿足預設條件的詞語,得到第二敏感詞,所述敏感詞匹配公式為,其中,?表示匹配度,表示篩選的所述關鍵詞語中第i個初始詞語,表示敏感詞庫中第i個詞語;
利用預構建的正則表達式對所述第一敏感詞和所述第二敏感詞進行校驗,并將檢驗成功的所述第一敏感詞和所述第二敏感詞作為目標敏感詞。
2.如權利要求1所述的敏感詞識別方法,其特征在于,所述對所述初始詞語進行去重,得到標準詞語,包括:
通過遍歷操作依次從所述初始詞語中選取一個詞語作為當前初始詞語;
計算所述當前初始詞語與所述初始詞語中剩余每個初始詞語之間的距離值;
在所述初始詞語中刪除與所述當前初始詞語的距離值大于預設閾值的初始詞語,并將剩余的初始詞語作為標準詞語。
3.如權利要求1所述的敏感詞識別方法,其特征在于,所述計算所述標準詞語在所述文本中的重要度得分,包括:
計算所述標準詞語中任意兩個詞語在所述文本中的依存關聯度;
根據所述依存關聯度,計算所述任意兩個詞語的引力;
根據所述依存關聯度和所述引力,計算所述任意兩個詞語的關聯強度;
根據所述關聯強度,計算所述任意兩個詞語的重要度得分。
4.如權利要求3所述的敏感詞識別方法,其特征在于,所述計算所述標準詞語中任意兩個詞語在所述文本中的依存關聯度,包括:
計算所述標準詞語中任意兩個詞語在所述文本中的依存路徑長度;
根據所述依存路徑長度及預設的超參數,得到所述任意兩個詞語在所述文本中的依存關聯度。
5.如權利要求1至4中任一項所述的敏感詞識別方法,其特征在于,所述對所述敏感文字進行序列提取,生成第一敏感詞包括:
利用所述敏感詞識別模型中敏感詞回歸模塊的輸入門計算所述敏感文字的狀態值;
利用所述敏感詞識別模型中敏感詞回歸模塊的遺忘門計算所述敏感文字的激活值;
根據所述狀態值和激活值計算所述敏感文字的狀態更新值;
利用所述敏感詞識別模型中敏感詞回歸模塊的輸出門計算所述狀態更新值的文字位置序列,生成第一敏感詞。
6.如權利要求1所述的敏感詞識別方法,其特征在于,所述利用所述敏感詞識別模型中敏感詞回歸模塊的輸入門計算所述敏感文字的狀態值,包括:
利用所述輸入門中細胞單元接收所述敏感文字,并確定所述敏感文字在所述輸入門中細胞單元的偏置、權重及激活因子;
識別所述敏感文字在所述輸入門中細胞單元的文字序列,根據所述輸入門中細胞單元的偏置、權重、激活因子以及文字序列,計算所述敏感文字的狀態值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安銀行股份有限公司,未經平安銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110426541.0/1.html,轉載請聲明來源鉆瓜專利網。





