[發(fā)明專利]基于用戶隱私保護的應用程序檢測方法及裝置有效
| 申請?zhí)枺?/td> | 202010819239.7 | 申請日: | 2020-08-14 |
| 公開(公告)號: | CN111680287B | 公開(公告)日: | 2020-11-13 |
| 發(fā)明(設計)人: | 周書恒;黃繼堂;祝慧佳 | 申請(專利權)人: | 支付寶(杭州)信息技術有限公司 |
| 主分類號: | G06F21/51 | 分類號: | G06F21/51;G06F21/62 |
| 代理公司: | 北京億騰知識產權代理事務所(普通合伙) 11309 | 代理人: | 陳霽;周良玉 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 用戶 隱私 保護 應用程序 檢測 方法 裝置 | ||
1.一種基于用戶隱私保護的應用程序檢測方法,所述方法包括:
從待檢測的目標應用程序中,提取出存在用戶隱私數據獲取需求的若干場景對應的用戶界面和隱私數據列表,其中包括第一場景對應的第一用戶界面和第一隱私數據列表;
提取所述第一用戶界面的內容數據,將所述內容數據轉換為相應的第一特征向量;
獲取歷史庫中的多個參考場景分別對應的第一參考特征向量,計算所述第一特征向量與各個所述第一參考特征向量之間的第一相似度,所述第一相似度表征場景之間的相似度;
當所述第一特征向量與某個第一參考特征向量之間的所述第一相似度超過第一預定閾值時,獲取該某個第一參考特征向量對應的參考場景下的參考隱私數據列表;
計算所述第一隱私數據列表與所述參考隱私數據列表之間的第二相似度;
基于所述第二相似度是否低于第二預定閾值,或者基于所述第一場景對應的異常值是否超過第四預定閾值,判別所述第一場景是否為異常場景;所述第一場景的異常值至少基于所述第二相似度確定。
2.根據權利要求1所述的方法,其中,所述第一用戶界面的內容數據包括文本數據和/或圖片數據;
將所述內容數據轉換為相應的第一特征向量,包括:
對于文本數據,通過預先訓練的第一文本轉換模型,轉換為文本特征向量;所述第一文本轉換模型包括doc2vec模型或BERT模型;
對于圖片數據,通過預先訓練的神經網絡模型,轉換為圖片特征向量;
基于所述文本特征向量和/或所述圖片特征向量,獲得第一特征向量。
3.根據權利要求1所述的方法,其中,基于所述第一場景對應的異常值是否超過第四預定閾值,判別所述第一場景是否為異常場景之前,還包括:
基于預先訓練的第二轉換模型,確定所述目標應用程序對應的第二特征向量;
獲取該某個第一參考特征向量對應的參考應用程序的第二參考特征向量;
計算所述第二特征向量與所述第二參考特征向量之間的第三相似度。
4.根據權利要求3所述的方法,其中,基于所述第一場景對應的異常值是否超過第四預定閾值,判別所述第一場景是否為異常場景,包括:
基于所述第一相似度、所述第二相似度和所述第三相似度,計算相應的第一隱私數據列表對應的第一場景的異常值;
若所述異常值超過第四預定閾值,則判定所述第一場景為異常場景。
5.根據權利要求3所述的方法,其中,基于預先訓練的第二轉換模型,確定所述目標應用程序對應的第二特征向量之前,還包括:
獲取多個用戶對多個應用程序的訪問序列;
將所述訪問序列作為訓練語料,訓練所述第二轉換模型,所述第二轉換模型用于輸出各個應用程序對應的第二特征向量,其中,
所述第二轉換模型為word2vec模型。
6.根據權利要求5所述的方法,其中,所述訪問序列從用戶訪問會話數據中獲得。
7.根據權利要求1所述的方法,其中,基于所述第二相似度是否低于所述第二預定閾值,判別所述第一場景是否為異常場景,包括:
當所述第二相似度低于第二預定閾值時,將相應的第一隱私數據列表對應的場景判定為異常場景。
8.根據權利要求1-7任一項所述的方法,其中,判別所述第一場景是否為異常場景之后,還包括:
針對多個異常場景對應的第一特征向量,進行聚類;
提供聚類結果,用于分析各個類簇相應的合法隱私數據列表。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于支付寶(杭州)信息技術有限公司,未經支付寶(杭州)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010819239.7/1.html,轉載請聲明來源鉆瓜專利網。





