[發明專利]敏感信息檢索方法及裝置在審
| 申請號: | 202110251138.9 | 申請日: | 2021-03-08 |
| 公開(公告)號: | CN115048565A | 公開(公告)日: | 2022-09-13 |
| 發明(設計)人: | 王菁菁;陳劼;宋瀟;文韜;王春華 | 申請(專利權)人: | 中國移動通信集團江蘇有限公司;中國移動通信集團有限公司 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/9538;G06F16/903 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 陳新生 |
| 地址: | 210029*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 敏感 信息 檢索 方法 裝置 | ||
本發明提供一種敏感信息檢索方法及裝置,該方法包括:獲取發表待檢索文檔的用戶的第一信息,根據所述第一信息獲取與所述第一信息關聯的所述用戶的第二信息;其中,所述第一信息和第二信息預先關聯;將所述第一信息和第二信息的起始字符段分別與所述待檢索文檔進行匹配;若從所述待檢索文檔中匹配到所述第一信息或第二信息的起始字符段,則根據所述第一信息或第二信息的字符串長度,在所述待檢索文檔中從所述起始字符段的起始位置開始讀取所述字符串長度的字符串;將所述字符串與所述第一信息或第二信息進行匹配,若匹配成功,則將所述字符串作為檢索出的敏感信息。本發明實現敏感信息的快速檢索。
技術領域
本發明涉及信息安全技術領域,尤其涉及一種敏感信息檢索方法及裝置。
背景技術
目前投訴工單信息來自多渠道,信息多樣化。投訴工單內容由業務人員統一歸檔填寫,存在敏感信息,包括但不限于姓名、身份證、手機號碼和住址。流轉到廠商環節,會全部明文顯示,存在信息泄露的高危風險。
在流轉過程中,需要對投訴內容中存在的用戶隱私數據等敏感信息進行脫敏。在脫敏之前需要先檢索出投訴內容中的敏感信息。由于運營商業務對應的用戶量數據巨大,現有的敏感詞過濾算法,往往忽略了敏感詞之間的關聯關系,造成重復匹配掃描檢索。
此外,DFA(Deterministic Finite Automaton,確定有窮自動機)或者Aho-Corasick算法需要事先將所有關鍵詞構造為字典樹,即狀態遷移表,當存在海量的關鍵詞時,字典樹的規模將會變得大到不可接受,內存中無法容納。
正則表達式方案的效率本身比較低,而且需要進行多次匹配,不適合于海量的關鍵詞的情形。
全文檢索算法通常是少量,即一個或幾個關鍵詞的檢索,一般以原始文本的預處理和分詞為主,無法用于海量關鍵詞的高效檢索。
發明內容
本發明提供一種敏感信息檢索方法及裝置,用以解決現有技術中敏感信息檢索效率低的缺陷,實現提高敏感信息的檢索效率。
本發明提供一種敏感信息檢索方法,包括:
獲取發表待檢索文檔的用戶的第一信息,根據所述第一信息獲取與所述第一信息關聯的所述用戶的第二信息;其中,所述第一信息和第二信息預先關聯;
將所述第一信息和第二信息的起始字符段分別與所述待檢索文檔進行匹配;
若從所述待檢索文檔中匹配到所述第一信息或第二信息的起始字符段,則根據所述第一信息或第二信息的字符串長度,在所述待檢索文檔中從所述起始字符段的起始位置開始讀取所述字符串長度的字符串;
將所述字符串與所述第一信息或第二信息進行匹配,若匹配成功,則將所述字符串作為檢索出的敏感信息。
根據本發明提供的一種敏感信息檢索方法,所述將所述第一信息和第二信息的起始字符段分別與所述待檢索文檔進行匹配,包括:
若所述第一信息或第二信息為電話號碼,則將所述第一信息或第二信息的前三個數字作為所述起始字符段與所述待檢索文檔進行匹配;
若所述第一信息或第二信息不為電話號碼,則將所述第一信息或第二信息的第一個字符作為所述起始字符段與所述待檢索文檔進行匹配。
根據本發明提供的一種敏感信息檢索方法,所述將所述字符串與所述第一信息或第二信息進行匹配的步驟包括:
若所述第一信息或第二信息為第一預設類型,則判斷所述字符串的結束字符與所述第一信息或第二信息的結束字符是否相同;
若所述字符串的結束字符與所述第一信息或第二信息的結束字符相同,則判斷所述字符串與所述第一信息或第二信息是否完全相同;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國移動通信集團江蘇有限公司;中國移動通信集團有限公司,未經中國移動通信集團江蘇有限公司;中國移動通信集團有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110251138.9/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





