[發(fā)明專利]一種應(yīng)用程序越界收集個(gè)人信息行為的判定方法有效
| 申請(qǐng)?zhí)枺?/td> | 202211320374.2 | 申請(qǐng)日: | 2022-10-26 |
| 公開(公告)號(hào): | CN115630357B | 公開(公告)日: | 2023-09-22 |
| 發(fā)明(設(shè)計(jì))人: | 黃誠;陳俊任;王子巖 | 申請(qǐng)(專利權(quán))人: | 四川大學(xué) |
| 主分類號(hào): | G06F21/55 | 分類號(hào): | G06F21/55;G06F16/35;G06F16/31;G06F40/295;G06F40/14;G06F18/22;G06N3/0442;G06N3/0464;G06N3/08 |
| 代理公司: | 成都厚為專利代理事務(wù)所(普通合伙) 51255 | 代理人: | 王杰 |
| 地址: | 610065 四川*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 應(yīng)用程序 越界 收集 個(gè)人信息 行為 判定 方法 | ||
本發(fā)明公開了一種應(yīng)用程序越界收集個(gè)人信息行為的判定方法,包括:訓(xùn)練Word2vector詞嵌入模型;訓(xùn)練命名實(shí)體識(shí)別模型;訓(xùn)練文本分類模型;確定每種類型的應(yīng)用程序的基本業(yè)務(wù)和必要個(gè)人信息,形成合規(guī)三元組。形成待檢測(cè)隱私政策文本的XML樹結(jié)構(gòu);計(jì)算XML樹中節(jié)點(diǎn)的title屬性值與預(yù)定義文本的相似度,若相似度大于閾值,則將該節(jié)點(diǎn)中的文本內(nèi)容作為第二信息;從所述第二信息中提取出業(yè)務(wù)內(nèi)容和個(gè)人信息類別;利用文本分類模型預(yù)測(cè)業(yè)務(wù)內(nèi)容的業(yè)務(wù)種類,形成待檢測(cè)三元組;根據(jù)待檢測(cè)應(yīng)用程序的類型獲取對(duì)應(yīng)的合規(guī)三元組,將合規(guī)三元組與待檢測(cè)三元組進(jìn)行對(duì)比。本發(fā)明的方法極大提高了對(duì)隱私政策文本的解析速度和準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明涉及信息安全技術(shù)領(lǐng)域,特別是涉及一種應(yīng)用程序越界收集個(gè)人信息行為的判定方法。
背景技術(shù)
隨著國內(nèi)移動(dòng)應(yīng)用程序數(shù)量與手機(jī)上網(wǎng)網(wǎng)民數(shù)量的爆發(fā)式增長(zhǎng),用戶數(shù)據(jù)泄漏、個(gè)人信息越界收集等問題越發(fā)嚴(yán)重,嚴(yán)重威脅了廣大用戶的個(gè)人信息安全。雖然目前已有一些針對(duì)移動(dòng)應(yīng)用程序行為分析的方法,但是這些方法仍然存在一些不足。例如,隱私政策文本雖然是非結(jié)構(gòu)化數(shù)據(jù),但是大多隱私政策通常是隱含一定的結(jié)構(gòu)特征的,例如通常會(huì)以序號(hào)、小標(biāo)題等形式來進(jìn)行分塊和引導(dǎo),每一塊描述隱私政策的不同內(nèi)容,如圖1所示,現(xiàn)有方法沒有利用這樣的結(jié)構(gòu)特征,可能會(huì)導(dǎo)致機(jī)器學(xué)習(xí)模型對(duì)文本語義的理解出現(xiàn)偏差、模型準(zhǔn)確率較低的問題;且現(xiàn)有方法大多使用深度學(xué)習(xí)模型,可能造成計(jì)算量大、效率較低等問題。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的一項(xiàng)或多項(xiàng)不足,提供一種應(yīng)用程序越界收集個(gè)人信息行為的判定方法。
本發(fā)明的目的是通過以下技術(shù)方案來實(shí)現(xiàn)的:一種應(yīng)用程序越界收集個(gè)人信息行為的判定方法,包括:
S100.獲取原始語料庫,并基于所述原始語料庫訓(xùn)練Word2vector詞嵌入模型,所述原始語料庫為應(yīng)用程序市場(chǎng)中各應(yīng)用程序的隱私政策文本;
S200.基于第一信息進(jìn)行訓(xùn)練得到用于識(shí)別命名實(shí)體的命名實(shí)體識(shí)別模型,所述第一信息為所述原始語料庫中關(guān)于個(gè)人信息收集與使用的描述內(nèi)容,所述命名實(shí)體包括業(yè)務(wù)內(nèi)容和個(gè)人信息類別;
S300.利用預(yù)先標(biāo)注的數(shù)據(jù)集訓(xùn)練文本分類模型;
S400.根據(jù)預(yù)設(shè)規(guī)則確定每種類型的應(yīng)用程序的基本業(yè)務(wù)和必要個(gè)人信息,并形成各類應(yīng)用程序的合規(guī)三元組,所述合規(guī)三元組包括應(yīng)用程序類型、基本業(yè)務(wù)和必要個(gè)人信息。
S500.提取待檢測(cè)隱私政策文本中的序號(hào)和小標(biāo)題作為節(jié)點(diǎn),形成所述待檢測(cè)隱私政策文本的XML樹結(jié)構(gòu),其中,所述序號(hào)作為所述XML樹結(jié)構(gòu)中節(jié)點(diǎn)的mark屬性值,所述小標(biāo)題作為XML樹結(jié)構(gòu)中節(jié)點(diǎn)的title屬性值;
S600.利用所述Word2vector詞嵌入模型計(jì)算所述XML樹中節(jié)點(diǎn)的title屬性值與預(yù)定義文本的相似度,若相似度大于閾值,則將該節(jié)點(diǎn)中的文本內(nèi)容作為第二信息;S700.利用所述命名實(shí)體識(shí)別模型從所述第二信息中提取出業(yè)務(wù)內(nèi)容和個(gè)人信息類別,并形成二元組,所述二元組包括業(yè)務(wù)內(nèi)容和個(gè)人信息類別;
S800.獲取待檢測(cè)隱私政策文本中包括所述業(yè)務(wù)內(nèi)容的描述文本,基于所述描述文本、利用文本分類模型預(yù)測(cè)所述業(yè)務(wù)內(nèi)容的業(yè)務(wù)種類,并形成待檢測(cè)三元組,所述待檢測(cè)三元組包括業(yè)務(wù)內(nèi)容、業(yè)務(wù)種類和個(gè)人信息類別;
S900.根據(jù)待檢測(cè)應(yīng)用程序的類型獲取對(duì)應(yīng)的合規(guī)三元組,并將獲取到的合規(guī)三元組與待檢測(cè)三元組進(jìn)行對(duì)比,判斷應(yīng)用程序是否越界收集個(gè)人信息。
優(yōu)選的,所述命名實(shí)體識(shí)別模型為L(zhǎng)STM+CRF模型、BiLSTM+CRF模型或ID-CNN+CRF模型。
優(yōu)選的,所述文本分類模型為SVM模型、LSTM+softmax模型、BiLSTM+sofmax模型或TextCNN模型。
優(yōu)選的,利用預(yù)先標(biāo)注的數(shù)據(jù)集訓(xùn)練文本分類模型,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于四川大學(xué),未經(jīng)四川大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211320374.2/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F21-00 防止未授權(quán)行為的保護(hù)計(jì)算機(jī)或計(jì)算機(jī)系統(tǒng)的安全裝置
G06F21-02 .通過保護(hù)計(jì)算機(jī)的特定內(nèi)部部件
G06F21-04 .通過保護(hù)特定的外圍設(shè)備,如鍵盤或顯示器
G06F21-06 .通過感知越權(quán)操作或外圍侵?jǐn)_
G06F21-20 .通過限制訪問計(jì)算機(jī)系統(tǒng)或計(jì)算機(jī)網(wǎng)絡(luò)中的節(jié)點(diǎn)
G06F21-22 .通過限制訪問或處理程序或過程
- 對(duì)虛擬化應(yīng)用程序的基于策略的訪問
- 應(yīng)用程序執(zhí)行、應(yīng)用程序提供裝置和應(yīng)用程序分發(fā)方法
- 一種軟件保護(hù)方法、裝置及系統(tǒng)
- 應(yīng)用程序的開發(fā)方法和系統(tǒng)
- 應(yīng)用程序的擴(kuò)展方法及裝置
- 一種應(yīng)用程序商店的應(yīng)用程序發(fā)布方法及裝置
- 一種應(yīng)用程序的監(jiān)控方法、裝置及系統(tǒng)
- 用于對(duì)虛擬化應(yīng)用程序的基于策略的訪問的方法和系統(tǒng)
- 應(yīng)用程序控制方法、裝置、終端及存儲(chǔ)介質(zhì)
- 一種應(yīng)用程序安裝、卸載方法及通信終端
- 一種用存儲(chǔ)過程實(shí)現(xiàn)車輛越界判斷與統(tǒng)計(jì)的方法
- 嵌入式系統(tǒng)內(nèi)存越界錯(cuò)誤快速定位方法
- 一種內(nèi)存越界的定位方法及裝置
- 用于清潔機(jī)器人的區(qū)塊選擇方法、裝置及機(jī)器人
- 一種面向軌道交通的異物檢查系統(tǒng)及方法
- 一種內(nèi)存越界故障檢測(cè)方法及終端設(shè)備
- 一種內(nèi)存越界監(jiān)控方法、裝置及存儲(chǔ)介質(zhì)
- 基于越界騎行記錄的共享電單車騎行區(qū)域延伸方法及系統(tǒng)
- 適用于邊緣區(qū)域共享電單車調(diào)度方法及調(diào)度系統(tǒng)
- 一種基于人臉識(shí)別的校園越界自動(dòng)預(yù)警方法
- 個(gè)人信息發(fā)送/接收系統(tǒng)、個(gè)人信息發(fā)送/接收方法、個(gè)人信息提供設(shè)備、偏好管理設(shè)備以及計(jì)算機(jī)程序
- 一種輸入個(gè)人信息的方法、設(shè)備
- 用于公安教育平臺(tái)的個(gè)人信息管理方法
- 電子設(shè)備及其控制方法
- 個(gè)人信息系統(tǒng)、個(gè)人信息系統(tǒng)建立方法
- 信息保護(hù)方法、系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 個(gè)人信息錄入系統(tǒng)及控制方法
- 個(gè)人信息的建立方法
- 一種基于區(qū)塊鏈的個(gè)人信息管理方法及裝置
- 個(gè)人信息訪問請(qǐng)求系統(tǒng)及應(yīng)用該系統(tǒng)的方法





