[發明專利]一種數據集公平性檢測方法、裝置、電子設備及存儲介質在審
| 申請號: | 202210068138.X | 申請日: | 2022-01-20 |
| 公開(公告)號: | CN114595828A | 公開(公告)日: | 2022-06-07 |
| 發明(設計)人: | 王秀利;馬昊 | 申請(專利權)人: | 中央財經大學 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06N3/04;G06K9/62 |
| 代理公司: | 北京市誠輝律師事務所 11430 | 代理人: | 成丹;耿慧敏 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 公平性 檢測 方法 裝置 電子設備 存儲 介質 | ||
1.一種數據集公平性檢測方法,其特征在于,所述方法包括:
獲取需要檢測的原始數據集;
基于所述原始數據集,確定所述原始數據集中數據的數據類型,選取所述數據類型對應的目標模型,采用所述目標模型對所述原始數據集進行擬合,得到模型參數矩陣;
根據所述模型參數矩陣,對所述原始數據集中每個樣本進行歧視性檢測,得到歧視性檢測結果,根據所述歧視性檢測結果,確定第一歧視樣本集;
根據所述模型參數矩陣和所述第一歧視樣本集,確定第二歧視樣本集;
將所述第一歧視樣本集和所述第二歧視樣本集合并,得到所述原始數據集對應的歧視樣本集,以采用所述歧視樣本集度量所述原始數據集的歧視性水平。
2.根據權利要求1所述的方法,其特征在于,所述原始數據集中數據的數據類型包括表格型數據和文本型數據;
若所述數據類型為表格型數據,對應的所述目標模型為前饋神經網絡模型;
若所述數據類型為文本型數據,對應的所述目標模型為雙向長短期記憶模型。
3.根據權利要求2所述的方法,其特征在于,所述基于所述原始數據集,確定所述原始數據集中數據的數據類型,選取所述數據類型對應的目標模型,采用所述目標模型對所述原始數據集進行擬合,得到模型參數矩陣,包括:
從所述原始數據集中隨機抽取一條數據;
判斷所述數據的數據類型;
若所述數據的數據類型為表格型數據,則采用所述前饋神經網絡模型對所述原始數據集進行擬合;若所述數據的數據類型為文本型數據,則采用所述雙向長短期記憶模型對所述原始數據集進行擬合;得到模型各層參數,將所有所述模型各層參數組合形成所述模型參數矩陣。
4.根據權利要求1所述的方法,其特征在于,所述樣本包括被保護屬性變量;
對所述樣本進行歧視性檢測,包括:
逐個改變所述樣本中被保護屬性變量,得到新樣本集,所述新樣本集包括若干新樣本,其中,每改變一個所述被保護屬性變量形成一個新樣本;
將所述樣本及所述新樣本分別輸入所述目標模型,分別得到第一模型輸出結果和第二模型輸出結果,所有所述第二模型輸出結果構成第二模型輸出結果集;
若所述第二模型輸出結果集中存在至少一個所述第二模型輸出結果與所述第一模型輸出結果不同,則所述樣本通過歧視性檢測,否則,所述樣本未通過歧視性檢測。
5.根據權利要求4所述的方法,其特征在于,根據歧視性檢測結果,確定第一歧視樣本集,包括:
如果所述歧視性檢測結果為通過歧視性檢測,則將通過歧視性檢測對應的樣本添加至第一歧視樣本集;
如果所述歧視性檢測結果為未通過歧視性檢測,則對未通過歧視性檢測對應的樣本進行全局擾動,得到擾動后樣本,對所述擾動后樣本重新進行歧視性檢測,直到所述未通過歧視性檢測對應的樣本通過歧視性檢測為止。
6.根據權利要求5所述的方法,其特征在于,所述樣本還包括非保護屬性變量;
所述對未通過歧視性檢測對應的樣本進行全局擾動,得到擾動后樣本,包括:
根據所述第一模型輸出結果和所述第二模型輸出結果集,從所述新樣本集選取與所述樣本相似度最低的對應樣本;
根據所述模型參數矩陣分別計算所述樣本與所述對應樣本的第一梯度集和第二梯度集,所述第一梯度集中包括所述非保護屬性變量的第一梯度值,所述第二梯度集中包括所述非保護屬性變量的第二梯度值;
對應比較所述第一梯度值和所述第二梯度值,將梯度值較大的所述非保護屬性變量的梯度方向確定為所述非保護屬性變量的擾動方向;
根據所有所述非保護屬性變量的擾動方向,確定所述樣本的全局擾動的方向矩陣;
根據所述全局擾動的方向矩陣,確定擾動后樣本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中央財經大學,未經中央財經大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210068138.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于組態式開發的工業互聯網平臺
- 下一篇:一種miRNA、衍生物及其應用
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





