[發明專利]一種基于分類置換的中文姓名數據脫敏方法在審
| 申請號: | 201910485787.8 | 申請日: | 2019-06-05 |
| 公開(公告)號: | CN110222153A | 公開(公告)日: | 2019-09-10 |
| 發明(設計)人: | 李輝;趙柯純;龔政;孟雪 | 申請(專利權)人: | 西安電子科技大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F21/62 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 范巍 |
| 地址: | 710071 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 脫敏 姓氏 姓名數據 名字 向量 向量形式 置換 向量相似度 數據庫 隨機選擇 中文 語料庫 分類 轉換 存儲 保留 | ||
1.一種基于分類置換的中文姓名數據脫敏方法,其特征在于,包括以下步驟:
1)對中文人名語料庫中的數據按照姓氏和名字分成兩類數據,并將得到的兩類數據轉換為向量形式;
2)將步驟1)得到的兩類數據及其向量形式存儲到數據庫中;
3)獲取待脫敏姓名數據;
4)將待脫敏姓名數據的姓氏及名字分別轉換為向量形式;
5)獲取數據庫中與待脫敏姓名的姓氏向量相似度最大的K個姓氏向量;
6)在步驟5)得到的K個姓氏向量中隨機選擇一個對待脫敏姓名的姓氏進行置換;
7)獲取數據庫中與待脫敏姓名的名字向量相似度最大的N個名字向量;
8)在步驟7)獲取的N個名字向量中隨機選擇一個對待脫敏姓名的名字進行置換;
9)將待脫敏名字對應的置換后的姓氏與置換后的名字進行拼接,得脫敏后的數據,完成基于分類置換的中文姓名數據脫敏。
2.根據權利要求1所述的基于分類置換的中文姓名數據脫敏方法,其特征在于,步驟1)中運用自然語言處理模型對中文人名語料庫中的數據按照姓氏和名字分成兩類數據,并將得到的兩類數據轉換為向量形式;
步驟4)中運用自然語言處理模型將待脫敏姓名數據的姓氏及名字分別轉換為向量形式。
3.根據權利要求2所述的基于分類置換的中文姓名數據脫敏方法,其特征在于,所述自然語言處理模型為Bert模型、MT-DNN模型或詞嵌入模型與深度學習模型的結合模型。
4.根據權利要求1所述的基于分類置換的中文姓名數據脫敏方法,其特征在于,數據庫中姓氏向量與待脫敏姓名的姓氏向量的余弦相似度cosθ為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學,未經西安電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910485787.8/1.html,轉載請聲明來源鉆瓜專利網。





