[發(fā)明專利]用于數(shù)據(jù)的關(guān)系型上下文敏感匿名化的方法和系統(tǒng)有效
| 申請?zhí)枺?/td> | 201410093918.5 | 申請日: | 2014-03-14 |
| 公開(公告)號: | CN104346418B | 公開(公告)日: | 2018-06-19 |
| 發(fā)明(設(shè)計)人: | C·O·艾侖;S·R·凱瑞爾;H·墨斯三世;E·伍茲 | 申請(專利權(quán))人: | 國際商業(yè)機器公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 中國國際貿(mào)易促進委員會專利商標事務所 11038 | 代理人: | 邊海梅 |
| 地址: | 美國*** | 國省代碼: | 美國;US |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 群組 關(guān)鍵屬性 個人信息數(shù)據(jù) 多個屬性 敏感 系統(tǒng)描述 語料庫 全局 | ||
1.一種包括處理器和存儲器的數(shù)據(jù)處理系統(tǒng)中的用于數(shù)據(jù)的關(guān)系型上下文敏感匿名化的方法,包括:
由所述數(shù)據(jù)處理系統(tǒng)接收對數(shù)據(jù)的請求,其中所述請求指定與所選人的所選群組相對應的關(guān)系型上下文,所述所選人的所選群組是基于所述關(guān)系型上下文從人的全局群組中選擇的,并且其中所述關(guān)系型上下文指定所述所選群組中的所選人的一個或多個屬性,這一個或多個屬性確立所述所選人之間的關(guān)系并且將所述所選人與所述全局群組中的不在所述所選群組中的非所選人相區(qū)分;
由所述數(shù)據(jù)處理系統(tǒng),對于與所述所選群組相對應的關(guān)系型上下文,基于與所述所選群組中的所選人相對應的個人信息數(shù)據(jù)的語料庫,確定所述個人信息數(shù)據(jù)中的一個或多個關(guān)鍵屬性;
由所述數(shù)據(jù)處理系統(tǒng)確定所述一個或多個關(guān)鍵屬性中的每個關(guān)鍵屬性在所述所選群組的關(guān)系型上下文內(nèi)的罕見性值;以及
由所述數(shù)據(jù)處理系統(tǒng)基于所確定的每個關(guān)鍵屬性在所述所選群組的關(guān)系型上下文內(nèi)的罕見性值來匿名化所述一個或多個關(guān)鍵屬性中的所選關(guān)鍵屬性。
2.如權(quán)利要求1所述的方法,其中,確定所述一個或多個關(guān)鍵屬性中的每個關(guān)鍵屬性的罕見性包括利用組合矩陣理論操作來生成組合罕見性矩陣。
3.如權(quán)利要求1所述的方法,其中,所述一個或多個關(guān)鍵屬性是文本詞語。
4.如權(quán)利要求3所述的方法,其中,確定所述個人信息數(shù)據(jù)中的一個或多個關(guān)鍵屬性包括確定所述個人信息數(shù)據(jù)中的文本詞語之間的深層語義關(guān)系并且識別所述個人信息數(shù)據(jù)中的文本詞語之間的非常見深層語義關(guān)系。
5.如權(quán)利要求3所述的方法,其中,對于與所述所選群組相對應的關(guān)系型上下文,基于與所述所選群組中的所選人相對應的個人信息數(shù)據(jù),確定所述個人信息數(shù)據(jù)中的一個或多個關(guān)鍵屬性,包括:
基于依所述關(guān)系型上下文而定的詞語列表數(shù)據(jù)結(jié)構(gòu)來識別一個或多個關(guān)鍵詞語;
對于所述一個或多個關(guān)鍵詞語中的每個關(guān)鍵詞語,基于該關(guān)鍵詞語在所述個人信息數(shù)據(jù)的語料庫內(nèi)的相對出現(xiàn)次數(shù),來確定相對罕見性度量;以及
基于所述一個或多個關(guān)鍵詞語的相對罕見性度量來生成相對罕見性矩陣數(shù)據(jù)結(jié)構(gòu),其中所述相對罕見性矩陣識別詞語及其相應的相關(guān)相對罕見性度量。
6.如權(quán)利要求5所述的方法,還包括:
基于所述相對罕見性矩陣生成組合罕見性矩陣,其中所述組合罕見性矩陣識別所述一個或多個關(guān)鍵詞語中的罕見關(guān)鍵詞語的組合以及罕見關(guān)鍵詞語的每個組合出現(xiàn)的概率度量。
7.如權(quán)利要求6所述的方法,還包括:
基于所述組合罕見性矩陣確定罕見性函數(shù),其中所述罕見性函數(shù)定義在所述關(guān)系型上下文內(nèi)詞語的罕見組合和詞語的常見組合之間的邊界;以及
基于所述罕見性函數(shù)選擇所選關(guān)鍵屬性來進行匿名化。
8.如權(quán)利要求7所述的方法,其中,確定罕見性函數(shù)包括:
對所述組合罕見性矩陣執(zhí)行線性回歸操作以生成線性回歸圖線,在該線性回歸圖線中數(shù)據(jù)點對應于所述組合罕見性矩陣中的詞語或詞語的組合;
基于所述線性回歸圖線和成本函數(shù)生成線性預測函數(shù);以及
偏移所述線性預測函數(shù)以更好地擬合所述線性回歸圖線中具有更高罕見性權(quán)重的數(shù)據(jù)點,同時維持所述成本函數(shù)的成本值等于或低于最大成本值,從而生成所述罕見性函數(shù)。
9.如權(quán)利要求1所述的方法,其中,基于所確定的每個關(guān)鍵屬性在所述所選群組的關(guān)系型上下文內(nèi)的罕見性值來匿名化所述一個或多個關(guān)鍵屬性中的所選關(guān)鍵屬性包括:利用在一般化表格數(shù)據(jù)結(jié)構(gòu)中指定的一般化屬性來替換所選關(guān)鍵屬性。
10.如權(quán)利要求1所述的方法,其中,所述數(shù)據(jù)處理系統(tǒng)是醫(yī)療信息處理系統(tǒng)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國際商業(yè)機器公司,未經(jīng)國際商業(yè)機器公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410093918.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種充氣坐墊
- 下一篇:多功能水療護腰護膝及床墊





