[發明專利]一種數據有效性的驗證方法、裝置和設備有效
| 申請號: | 201811286876.1 | 申請日: | 2018-10-31 |
| 公開(公告)號: | CN109508558B | 公開(公告)日: | 2022-11-18 |
| 發明(設計)人: | 方文靜;王力;周俊 | 申請(專利權)人: | 創新先進技術有限公司 |
| 主分類號: | G06F21/62 | 分類號: | G06F21/62;G06N20/00 |
| 代理公司: | 北京博思佳知識產權代理有限公司 11415 | 代理人: | 林祥 |
| 地址: | 開曼群島大開曼島*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 有效性 驗證 方法 裝置 設備 | ||
本說明書實施例提供一種數據有效性的驗證方法和裝置,其中,方法可以包括:根據訓練樣本中的入模變量和標簽;將測試樣本中的入模變量輸入機器學習模型得到預測值;測試樣本還包括標簽;根據測試樣本的標簽和預測值,得到測試樣本對應的殘差;使用未入模變量回歸擬合殘差,得到第一回歸評價指標;將殘差發送至第二數據方,以使得第二數據方使用擁有的第二數據擬合殘差,并得到第二回歸評價指標;接收第二數據方返回的第二回歸評價指標,以通過比較第二回歸評價指標和第一回歸評價指標確定第二數據的數據有效性。
技術領域
本公開涉及大數據技術領域,特別涉及一種數據有效性的驗證方法和裝置。
背景技術
隨著互聯網技術的飛速發展,整個社會被強行推入“大數據”時代。不管人們是否愿意,我們的個人數據正在不經意間被動地被企業、個人搜集并使用。個人數據的網絡化和透明化已經成為不可阻擋的大趨勢。與此同時,用戶數據亦是危險的“潘多拉之盒”,數據一旦泄漏,用戶的隱私將被侵犯。近年來,已經發生了多起用戶隱私泄露事件,公民的個人的隱私數據保護遇到了嚴峻的挑戰。大數據帶來的整體性變革,使得個體用戶很難對抗個人隱私被全面暴露的風險。面對頻發的隱私泄露事件,隱私保護問題需要得到有效的解決。
在實際業務當中,我們可能遇到這樣的場景:需要借助第三方渠道的變量數據來提升現有模型的效果,僅當這些數據對我們建模會有幫助的時候,才購買相應的第三方數據。因此,我們需要在不獲取第三方數據的情況下預先評判其有效性,并且在這個過程中不能泄露我方用戶的隱私數據。
發明內容
有鑒于此,本說明書一個或多個實施例提供一種數據有效性的驗證方法和裝置,以在確定外部數據有效性的同時保護內部數據隱私。
具體地,本說明書一個或多個實施例是通過如下技術方案實現的:
第一方面,提供一種數據有效性的驗證方法,所述方法應用于驗證第二數據方擁有的第二數據是否有效;所述方法由第一數據方執行,所述第一數據方擁有的第一數據包括:機器學習模型的訓練集和測試集;所述訓練集包括多個訓練樣本,所述測試集包括多個測試樣本;所述方法包括:
根據訓練樣本中的入模變量和標簽,訓練所述機器學習模型;所述訓練樣本還包括未參與機器學習模型訓練的未入模變量;
將所述測試樣本中的所述入模變量輸入所述機器學習模型得到預測值;所述測試樣本還包括標簽,所述標簽表示測試樣本的入模變量輸入機器學習模型的預期預測值;
根據測試樣本的標簽和所述預測值,得到所述測試樣本對應的殘差;
使用所述未入模變量回歸擬合所述殘差,得到第一回歸評價指標;
將所述殘差發送至第二數據方,以使得第二數據方使用擁有的第二數據擬合所述殘差,并得到第二回歸評價指標;
接收所述第二數據方返回的第二回歸評價指標,以通過比較所述第二回歸評價指標和第一回歸評價指標,來確定第二數據的數據有效性。
第二方面,提供一種數據有效性的驗證方法,所述方法由第二數據方執行,包括:
接收第一數據方發送的殘差,所述殘差是第一數據方根據測試樣本中的入模變量輸入機器學習模型得到的預測值以及測試樣本的標簽得到;所述第一數據方擁有的第一數據包括:訓練集和測試集,所述訓練集包括多個訓練樣本,所述測試集包括多個測試樣本;所述機器學習模型是根據訓練樣本中的入模變量和標簽訓練得到;所述訓練樣本中還包括未入模變量;
接收第一數據方發送的樣本標識,并根據所述樣本標識進行樣本匹配獲得用于參與回歸擬合的第二數據;
基于所述第二數據回歸擬合所述殘差,得到第二回歸評價指標;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于創新先進技術有限公司,未經創新先進技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811286876.1/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





