[發明專利]用于敏感信息預分類的方法、系統、裝置和介質在審
| 申請號: | 202111572987.0 | 申請日: | 2021-12-21 |
| 公開(公告)號: | CN114254112A | 公開(公告)日: | 2022-03-29 |
| 發明(設計)人: | 李豐廷;劉焱;姚興;鄒鋼;郭飛;張安蒙;史艷華;劉威歆;劉玉華;張夢夢;羅賽男 | 申請(專利權)人: | 支付寶(杭州)信息技術有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/33;G06F16/332 |
| 代理公司: | 上海專利商標事務所有限公司 31100 | 代理人: | 段登新;錢孟清 |
| 地址: | 310023 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 敏感 信息 分類 方法 系統 裝置 介質 | ||
公開了一種用于訓練敏感信息預分類模型的方法,包括:構建高頻詞詞袋,所述高頻詞詞袋中包括敏感文本集中出現頻率最高的指定數量n個詞;基于所述高頻詞詞袋,構建訓練集;以及使用所述訓練集來訓練所述敏感信息預分類模型。本申請還涉及用于執行敏感信息預分類的方法和系統,以及相關聯的裝置和介質。本申請的方案能夠對數據中的敏感信息進行準確地預分類,從而有利于選擇更適用的敏感信息識別算法或脫敏算法。
技術領域
本申請涉及敏感信息處理,尤其涉及訓練敏感信息預分類模型的方法以及用于敏感信息預分類的方法和系統及相關聯的裝置和介質。
背景技術
目前,對敏感信息的保護越來越被重視。存在各種各樣類型的敏感信息,包括但不限于等。
在一些傳統方案中,通常不判斷文本中的敏感信息的類型,而是直接使用通用的敏感信息識別和脫敏算法。然而,由于不同類型的敏感信息的格式和特征差距極大,通用的敏感信息識別和脫敏算法通常表現較差。
因此,需要能夠對敏感信息進行預分類以便于選擇最適用的敏感信息識別算法和/或脫敏算法的方案。
發明內容
為了克服現有技術的缺陷,本說明書的一個或多個實施例通過探索敏感文本集中的高頻詞與敏感信息類別之間的關聯,對敏感信息進行預分類,從而用于選擇最適用的敏感信息識別算法和/或脫敏算法。
本說明書的一個或多個實施例通過以下技術方案來實現其上述目的。
在一個方面中,提供了一種用于訓練敏感信息預分類模型的方法,包括:
構建高頻詞詞袋W,所述高頻詞詞袋中包括敏感文本集中經加權出現頻率最高的指定數量n個詞W={w1,…,wi,…wn};
基于所述高頻詞詞袋W,構建訓練集,所述訓練集包括多個樣本,其中構建訓練集包括:
獲取文本;
確定所述文本的標簽集L={l1,…,li,…lk},其中所述標簽集L中的標簽li指示所述文本是否涉及對應的敏感信息類型;
生成所述文本的詞頻向量WF={wf1,…,wfi,…,wfn},所述詞頻向量WF中的元素wfi為所述高頻詞詞袋中的詞wi在所述文本中出現的頻率;
使用{WF,L}作為所述訓練集中的樣本;以及
使用所述訓練集來訓練所述敏感信息預分類模型。
優選地,構建高頻詞詞袋W包括:
對所述敏感文本集中的敏感文本執行分詞以獲得所述敏感文本集中所包括的多個詞;以及
統計所述敏感文本集中的詞的出現次數;以及
選擇出現次數最多的所述指定數目n個詞放入所述高頻詞詞袋。
優選地,構建高頻詞詞袋W還包括:
在統計所述敏感文本集中的詞的出現次數之前,過濾掉排除詞名單中包括的詞。
優選地,構建高頻詞詞袋W還包括:
在統計所述敏感文本集中的詞的出現次數之前,設置或調整所述敏感文本集中的一個或多個詞的權重。
優選地,生成所述文本的詞頻向量包括:
統計所述高頻詞詞袋中的每個詞wi在所述文本中的出現次數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于支付寶(杭州)信息技術有限公司,未經支付寶(杭州)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111572987.0/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





