[發明專利]敏感詞挖掘方法及其裝置、設備、介質在審
| 申請號: | 202210844576.0 | 申請日: | 2022-07-18 |
| 公開(公告)號: | CN115129913A | 公開(公告)日: | 2022-09-30 |
| 發明(設計)人: | 鄭彥 | 申請(專利權)人: | 廣州歡聚時代信息科技有限公司 |
| 主分類號: | G06F16/55 | 分類號: | G06F16/55;G06F16/583;G06F16/33;G06F16/35;G06F40/216;G06F40/289 |
| 代理公司: | 廣州利能知識產權代理事務所(普通合伙) 44673 | 代理人: | 王增鑫 |
| 地址: | 511442 廣東省廣州市番禺區南村鎮萬*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 敏感 挖掘 方法 及其 裝置 設備 介質 | ||
1.一種敏感詞挖掘方法,其特征在于,包括如下步驟:
獲取數據集,所述數據集包括敏感文本及其所屬的敏感類型;
對各個敏感類型相對應的所述敏感文本進行多種粒度相對應的敏感詞提取操作,確定出多種粒度相對應的分詞,其中,第一種粒度的敏感詞基于單詞進行操作,第二種粒度的敏感詞基于分詞進行操作,第三種粒度的敏感詞基于共現詞進行操作;
構造敏感詞表,將所提取的敏感詞與其所在的敏感文本所屬的敏感類型關聯存儲于該敏感詞表中。
2.根據權利要求1所述的敏感詞挖掘方法,其特征在于,獲取數據集之前,還包括如下步驟:
獲取存在敏感詞的歷史商品的商品圖片及文本信息,所述文本信息包括商品的商品描述信息;
采用預先訓練至收斂的圖文識別模型,提取出所述存在敏感詞的商品圖片中的圖片文本,將該圖片文本和所述文本信息作為敏感文本;
采用預先訓練至收斂的文本分類模型對所述敏感文本進行分類,獲得敏感文本對應的敏感類型構造出數據集。
3.根據權利要求1所述的敏感詞挖掘方法,其特征在于,構造敏感詞表之后,還包括如下步驟:
響應商品發布請求,獲取商品的商品圖片及文本信息,提取出相應的待檢測文本,所述文本信息包括商品的商品描述信息;
將待檢測文本與敏感詞表中多粒度相對應的敏感詞進行匹配,獲得相匹配的目標敏感詞;
根據所述各種粒度相對應的敏感詞對應預設的敏感系數,統計所述目標敏感詞對應的敏感系數,獲得敏感置信度作為所述待檢測文本對應的檢測評分;
當待檢測文本的檢測評分達到預設閾值時,判定該待檢測文本為敏感文本,向發送所述商品發布請求的客戶端推送商品發布失敗通知。
4.根據權利要求1所述的敏感詞挖掘方法,其特征在于,對各個敏感類型相對應的所述敏感文本進行多種粒度相對應的敏感詞提取操作,包括如下步驟:
逐一調用數據集中的各個敏感類型的敏感文本進行多個字長相對應的分詞操作,獲得各個字長相對應的分詞所構成的分詞集;
根據所述分詞集,確定每個敏感類型相對應的單詞粒度的分詞子集、分詞粒度的分詞子集,以及共現詞粒度的分詞子集;
對應統計出每個敏感類型下,各個分詞在該敏感類型的敏感文本中出現的詞頻相對應的關鍵評分;
根據所述關鍵評分為各個敏感類型優選出相應粒度所對應的分詞作為該敏感類型相對應的敏感詞。
5.根據權利要求1所述的敏感詞挖掘方法,其特征在于,對應統計出每個敏感類型下,各個分詞在該敏感類型的敏感文本中出現的詞頻相對應的關鍵評分,包括如下步驟:
針對每個敏感類型,統計其相對應的各個分詞在該敏感類型相對應的所有敏感文本中出現的詞頻;
針對每個敏感類型,統計其相對應的各個分詞在其他敏感類型相對應的所有敏感文本中出現的逆文本頻率指數;
將每個分詞的詞頻和逆文本頻率指數的乘積確定為相應分詞的關鍵評分。
6.根據權利要求1所述的敏感詞挖掘方法,其特征在于,將待檢測文本與敏感詞表中多粒度相對應的敏感詞進行匹配,獲得相匹配的目標敏感詞的步驟中,所述敏感詞表將各個敏感類型的敏感詞存儲為知識圖譜結構,其中,第三種粒度的敏感詞作為第二種粒度的敏感詞的上級節點,具有節點連接關系的第三種粒度的敏感詞與第二種粒度的敏感詞之間,包含相同的第一種粒度的敏感詞;第二種粒度的敏感詞作為第一種粒度的敏感詞的上級節點。
7.一種敏感詞挖掘裝置,其特征在于,包括:
數據獲取模塊,用于獲取數據集,所述數據集包括敏感文本及其所屬的敏感類型;
敏感詞提取模塊,用于對各個敏感類型相對應的所述敏感文本進行多種粒度相對應的敏感詞提取操作,確定出多種粒度相對應的分詞,其中,第一種粒度的敏感詞基于單詞進行操作,第二種粒度的敏感詞基于分詞進行操作,第三種粒度的敏感詞基于共現詞進行操作;
詞表構造模塊,用于構造敏感詞表,將所提取的敏感詞與其所在的敏感文本所屬的敏感類型關聯存儲于該敏感詞表中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州歡聚時代信息科技有限公司,未經廣州歡聚時代信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210844576.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種測量電路、芯片及電子設備
- 下一篇:一種實現多生理信號聯合分析的系統





