[發(fā)明專利]一種社交媒體用戶行為時(shí)間模式的自適應(yīng)隱私保護(hù)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201710706006.4 | 申請(qǐng)日: | 2017-08-17 |
| 公開(公告)號(hào): | CN107688751B | 公開(公告)日: | 2021-02-26 |
| 發(fā)明(設(shè)計(jì))人: | 曾劍平;張澤文 | 申請(qǐng)(專利權(quán))人: | 復(fù)旦大學(xué) |
| 主分類號(hào): | G06F21/62 | 分類號(hào): | G06F21/62 |
| 代理公司: | 上海正旦專利代理有限公司 31200 | 代理人: | 陸飛;陸尤 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 社交 媒體 用戶 行為 時(shí)間 模式 自適應(yīng) 隱私 保護(hù) 方法 | ||
1.一種社交媒體用戶行為時(shí)間模式的自適應(yīng)隱私保護(hù)方法,其特征在于,先定義所需處理的用戶行為、行為模式元信息、行為模式的元信息集:
定義1,用戶行為,是指用戶在網(wǎng)絡(luò)社交媒體中留下附帶有時(shí)間標(biāo)簽的痕跡的行為,包括發(fā)貼行為、評(píng)論行為、簽到行為;在面向以時(shí)間點(diǎn)數(shù)據(jù)為主的應(yīng)用中,時(shí)間模式是導(dǎo)致隱私泄露的主要數(shù)據(jù)源,將這種原始的用戶行為表示為:
U(u,d)=(t1,t2,…tm)
其中,u表示某個(gè)用戶,d表示某個(gè)時(shí)間段,t表示行為在時(shí)間標(biāo)簽上的數(shù)值,m是在d時(shí)間段內(nèi)的時(shí)間標(biāo)簽數(shù);
定義2,行為模式元信息,一定時(shí)間范圍內(nèi)的用戶行為對(duì)應(yīng)一個(gè)二維結(jié)構(gòu),將該時(shí)間范圍按特定粒度切分成時(shí)間段,構(gòu)成第一個(gè)維度,每個(gè)時(shí)間段上用戶行為的頻次作為第二個(gè)維度,連續(xù)的n個(gè)時(shí)間段上用戶行為的頻次稱為行為模式元信息;時(shí)間段是元信息的屬性,記作A1,A2,…,An,時(shí)間段上用戶行為的頻次是元信息的值,記作a1,a2,…,an,從而元信息可以表示為連續(xù)n個(gè)時(shí)間段屬性上的投影,記投影映射為T:
(a1,a2,…,an)=T[(A1,A2,…,An)];
定義3,行為模式的元信息集,把行為模式元信息看作空間中的數(shù)據(jù)點(diǎn),由社交媒體中所有用戶對(duì)應(yīng)的K個(gè)數(shù)據(jù)點(diǎn)所構(gòu)成的點(diǎn)集稱為行為模式的元信息集,形式定義如下:
其中,Mi={a1,a2,…,an},i=1,2,…,K;
自適應(yīng)隱私保護(hù)方法分為預(yù)處理流程和隱私保護(hù)流程兩個(gè)步驟:
(一)預(yù)處理流程包括:獲取原始數(shù)據(jù),按最小時(shí)間分割粒度,擴(kuò)大時(shí)間段,生成行為模式元信息集;
(1)獲取原始數(shù)據(jù)
原始數(shù)據(jù)是指社交媒體上與用戶行為有關(guān)的數(shù)據(jù),可以通過各種網(wǎng)絡(luò)爬蟲或社交媒體自身提供的應(yīng)用程序接口調(diào)用得到,將用戶標(biāo)識(shí)和行為的時(shí)間戳提取出來,原始數(shù)據(jù)集包括若干個(gè)用戶在一定時(shí)間內(nèi)的行為數(shù)據(jù),符合定義1的要求;
(2)按最小時(shí)間段分割
先設(shè)定一個(gè)最小時(shí)間段,其原則是優(yōu)先保證數(shù)據(jù)可用性;分割過程就是對(duì)原始數(shù)據(jù)集的時(shí)間跨度按照最小時(shí)間段進(jìn)行平均分割;
(3)擴(kuò)大時(shí)間段
擴(kuò)大時(shí)間段的目的是為了提升數(shù)據(jù)的隱私度,同時(shí)減小原始數(shù)據(jù)的數(shù)據(jù)量,以保證后續(xù)的自適應(yīng)微聚集算法在處理這些數(shù)據(jù)時(shí)不需要太多的計(jì)算資源消耗;擴(kuò)大時(shí)間段的過程為:依次掃描每個(gè)最小時(shí)間段上的用戶行為數(shù)量,當(dāng)該數(shù)量小于匿名度時(shí),表明這種時(shí)間段無法保證k個(gè)不同用戶的隱私;將其與后續(xù)的時(shí)間段進(jìn)行合并,直到滿足行為數(shù)量大于匿名度為止,得到了一系列時(shí)間段A1,A2,…,An;
(4)生成行為模式元信息集
生成行為模式的元信息集就是統(tǒng)計(jì)每個(gè)用戶在每個(gè)時(shí)間段分割區(qū)間上的行為數(shù)量,并構(gòu)造成為一個(gè)大小為用戶數(shù)量*時(shí)間段數(shù)的矩陣;
對(duì)于已經(jīng)獲得的一系列時(shí)間段A1,A2,…,An,按照順序分別形成分割區(qū)間,即[0,A1],[A1,A2],…,[An-1,An];
最終所形成的矩陣形式上為:
其中,每個(gè)元素Mij表示第i個(gè)用戶在第j個(gè)區(qū)間上的行為次數(shù),K為用戶數(shù);
(二)隱私保護(hù)流程,包括:設(shè)定匿名度k,執(zhí)行微聚集隱私保護(hù)算法的處理流程,產(chǎn)生隱私保護(hù)數(shù)據(jù)集
(1)設(shè)定匿名度k
匿名度是用于控制一個(gè)數(shù)據(jù)集中相同記錄的個(gè)數(shù);對(duì)于一個(gè)含有k個(gè)用戶的數(shù)據(jù)集,如果這些用戶的行為數(shù)據(jù)都相同,那么攻擊者成功推斷其中任何一個(gè)用戶的概率為1/k;
(2)微聚集隱私保護(hù)算法的處理,具體步驟如下:
對(duì)于用戶行為模式的元信息集匿名度k;
1)計(jì)算元信息集的整體質(zhì)心,找出離整體質(zhì)心最遠(yuǎn)的點(diǎn)作為離心點(diǎn),并找出距離離心點(diǎn)最近的2k-1個(gè)點(diǎn);依距離從小到大排序,取前k-1個(gè)與離心點(diǎn)組成一個(gè)既有類,而剩余的k個(gè)點(diǎn)構(gòu)成一個(gè)候選點(diǎn)隊(duì)列;
2)對(duì)于候選點(diǎn)隊(duì)列中的每一個(gè)候選點(diǎn),循環(huán)執(zhí)行步驟3)-5)的自適應(yīng)判斷條件,決定是否將候選點(diǎn)加入到既有類中;
3)構(gòu)建第一假想類、第二假想類、第三假想類,既有類與候選點(diǎn)共同形成的類作為第一假想類,除第一假想類之外的k個(gè)距離候選點(diǎn)最鄰近的點(diǎn)形成的類作為第二假想類,候選點(diǎn)與除既有類之外的k個(gè)最近鄰點(diǎn)形成的類作為第三假想類;
構(gòu)造完假想類后,分別計(jì)算既有類、第一假想類、第二假想類以及第三假想類這四個(gè)類的信息損失;如果既有類與第三假想類的信息損失之和大于第一假想類與第二假想類的信息損失之和,則執(zhí)行步驟4);反之,執(zhí)行步驟5);
4)將候選點(diǎn)加入既有類之中,并從候選點(diǎn)隊(duì)列中刪除,繼續(xù)處理下一個(gè)候選點(diǎn);
5)只將候選點(diǎn)從候選點(diǎn)隊(duì)列中刪除,不加入既有類之中,繼續(xù)處理下一個(gè)候選點(diǎn);
6)記錄既有類信息,并將該既有類中的點(diǎn)從元信息集中刪除,若元信息集剩余點(diǎn)的個(gè)數(shù)不少于2k,則回到步驟1)繼續(xù)執(zhí)行;否則,依照信息損失最小原則,將剩余點(diǎn)分配到相應(yīng)的既有類之中;
7)生成隱私保護(hù)后的數(shù)據(jù)集,對(duì)每一個(gè)既有類中的每個(gè)點(diǎn)用該既有類的質(zhì)心代替,從而將原始行為模式的元信息集轉(zhuǎn)換成為新的具備保護(hù)隱私能力的數(shù)據(jù)集;
最后得到隱私保護(hù)后的數(shù)據(jù)集。
2.根據(jù)權(quán)利要求1所述的社交媒體用戶行為時(shí)間模式的自適應(yīng)隱私保護(hù)方法,其特征在于,步驟3)-5)中的自適應(yīng)判斷條件,具體如下:
判斷候選點(diǎn)是否加入既有類時(shí),需要構(gòu)造三個(gè)假想類;既有類與第三假想類的信息損失之和大于第一、第二假想類的信息損失之和,就是候選點(diǎn)加入既有類后減小整體信息損失的充要條件;該判斷條件的具體計(jì)算方法如下:
首先,既有類的信息損失記為IL1,信息損失采用SSE度量方法,即誤差項(xiàng)的平方和,由此,可以計(jì)算既有類的信息損失IL1:
上式中,xi為既有類中的數(shù)據(jù)點(diǎn),為既有類的質(zhì)心;
在構(gòu)造的第一假想類中,候選點(diǎn)被分配到了既有類中,因而對(duì)既有類的質(zhì)心造成了擾動(dòng),記第一假想類的質(zhì)心為則第一假想類的信息損失IL′1的計(jì)算方法如下:
同理,第二假想類的信息損失IL2和第三假想類的信息損失IL′2分別表示為:
上式中,xj為第二假想類和第三假想類中的數(shù)據(jù)點(diǎn),為第二假想類的質(zhì)心,為第三假想類的質(zhì)心;
如果把候選點(diǎn)分配到既有類中,則整體的信息損失ILa為第一假想類和第二假想類的信息損失之和,即:
ILa=IL′1+IL2
如果把候選點(diǎn)分配到第二假想類中,則整體的信息損失ILb為既有類和第三假想類的信息損失之和,即:
ILb=IL1+IL′2
將兩種情況下的信息損失相減,得到它們的差值ΔIL:
ΔIL=ILa-ILb=ΔIL1-ΔIL2
其中,ΔIL1為第一假想類相對(duì)于既有類的信息損失增量,ΔIL2為第三假想類相對(duì)于第二假想類的信息損失增量,ΔIL表示候選點(diǎn)分配到既有類中相對(duì)于候選點(diǎn)分配到第二假想類中的整體信息損失的增量;
判斷條件為ΔIL≤0,這一條件的滿足,說明候選點(diǎn)分配到既有類中造成的整體信息損失更小,把候選點(diǎn)加入既有類中;反之,說明候選點(diǎn)分配到第二假想類中造成的整體信息損失更小,不把候選點(diǎn)加入既有類中。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于復(fù)旦大學(xué),未經(jīng)復(fù)旦大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710706006.4/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F21-00 防止未授權(quán)行為的保護(hù)計(jì)算機(jī)或計(jì)算機(jī)系統(tǒng)的安全裝置
G06F21-02 .通過保護(hù)計(jì)算機(jī)的特定內(nèi)部部件
G06F21-04 .通過保護(hù)特定的外圍設(shè)備,如鍵盤或顯示器
G06F21-06 .通過感知越權(quán)操作或外圍侵?jǐn)_
G06F21-20 .通過限制訪問計(jì)算機(jī)系統(tǒng)或計(jì)算機(jī)網(wǎng)絡(luò)中的節(jié)點(diǎn)
G06F21-22 .通過限制訪問或處理程序或過程
- 社交網(wǎng)絡(luò)裝置成員資格和應(yīng)用
- 一種社交對(duì)象搜索方法及裝置
- 針對(duì)嵌入式應(yīng)用上下文中的搜索的查詢意圖表達(dá)
- 一種關(guān)鍵社交信息的確定方法及裝置
- 社交網(wǎng)絡(luò)數(shù)據(jù)的可視化方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 動(dòng)態(tài)社交圈確定方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 控制社交分享信息在社交空間的呈現(xiàn)狀態(tài)的方法與設(shè)備
- 社交角色管理方法、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 基于社交關(guān)系的社交屬性數(shù)據(jù)確定方法、裝置及設(shè)備
- 一種社交賬戶推薦方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)





