[發(fā)明專利]隱私政策中隱私信息提取方法、系統(tǒng)、終端及介質(zhì)有效
| 申請?zhí)枺?/td> | 202110609050.X | 申請日: | 2021-06-01 |
| 公開(公告)號(hào): | CN113282955B | 公開(公告)日: | 2022-07-08 |
| 發(fā)明(設(shè)計(jì))人: | 朱浩瑾;魏程涌瀟;陳哲軒;周路 | 申請(專利權(quán))人: | 上海交通大學(xué) |
| 主分類號(hào): | G06F21/62 | 分類號(hào): | G06F21/62;G06F16/33;G06F16/35;G06F16/951;G06F40/211;G06F40/242;G06F40/247;G06F40/295 |
| 代理公司: | 上海恒慧知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 31317 | 代理人: | 張寧展 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 隱私 政策 信息 提取 方法 系統(tǒng) 終端 介質(zhì) | ||
本發(fā)明提供了一種隱私政策中隱私信息提取方法及系統(tǒng),基于自然語言處理,首先將原始的隱私政策處理成文本,繼而對(duì)隱私文本進(jìn)行分段分句,并且使用預(yù)訓(xùn)練得到的自然語言處理模型對(duì)句子進(jìn)行詞性標(biāo)注與命名實(shí)體識(shí)別得到數(shù)據(jù)對(duì)象,最后利用同義詞詞典與模糊匹配得到歸一化的數(shù)據(jù)對(duì)象,再將數(shù)據(jù)對(duì)象映射到對(duì)應(yīng)的隱私信息分類中,得到隱私政策收集的隱私信息的類別,以便于用戶、應(yīng)用市場平臺(tái)或監(jiān)管機(jī)構(gòu)了解應(yīng)用的隱私政策的隱私信息收集情況,幫助他們進(jìn)行下一步的決策。同時(shí)提供了一種相應(yīng)的終端及介質(zhì)。本發(fā)明利用自然語言處理技術(shù)對(duì)隱私政策中的隱私信息進(jìn)行提取,不需人工進(jìn)行標(biāo)注,能夠?qū)崿F(xiàn)更加高效、快速、靈活的隱私分析,滿足相關(guān)行業(yè)的需求。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,具體地,涉及一種基于自然語言處理的隱私政策中隱私信息提取方法、系統(tǒng)、終端及介質(zhì)。
背景技術(shù)
隨著時(shí)代的發(fā)展,移動(dòng)互聯(lián)網(wǎng)應(yīng)用已經(jīng)滲透到人們?nèi)粘I钪械姆椒矫婷妗H欢苿?dòng)互聯(lián)網(wǎng)應(yīng)用在給人們提供方便的同時(shí),也收集了大量用戶的隱私信息。為了規(guī)范應(yīng)用的隱私信息收集,國內(nèi)外都紛紛出臺(tái)了相關(guān)的法規(guī)及政策,要求應(yīng)用必須提供明晰的隱私政策,在用戶使用應(yīng)用之前告知用戶哪些隱私信息將被收集。因此,一份隱私政策往往具有與法律條文類似的專業(yè)性、準(zhǔn)確性等特性。伴隨著這些特性而來的,還有冗長復(fù)雜且晦澀難懂等特點(diǎn)。不管是用戶、應(yīng)用市場平臺(tái)或是相關(guān)監(jiān)管機(jī)構(gòu),人工從隱私政策中找出其收集的隱私信息,都需要耗費(fèi)大量的人力。一個(gè)高效的自動(dòng)化隱私信息提取工具,不僅能夠幫助用戶了解一個(gè)應(yīng)用收集了哪些隱私信息,而且能夠幫助應(yīng)用市場平臺(tái)或相關(guān)監(jiān)管機(jī)構(gòu)提高調(diào)查工作的效率。
隱私政策的文本往往十分復(fù)雜。一方面,隱私政策的撰寫要符合相關(guān)的法規(guī),因此其具有很強(qiáng)的規(guī)范性與專業(yè)性,且通常以長句為主;而另一方面,由于相關(guān)法規(guī)對(duì)于隱私信息的描述并沒有一個(gè)確定的要求,不同應(yīng)用的隱私政策往往用詞差距很大。傳統(tǒng)上,要了解一份隱私政策里包含了哪些隱私信息,需要依靠專業(yè)的審計(jì)人員人工審核。這種方式不僅需要耗費(fèi)大量的人力,而且還十分耗時(shí)。
近年來,自然語言處理技術(shù)發(fā)展迅速,尤其是在大規(guī)模的文本分析、句法分析與命名實(shí)體識(shí)別方面。對(duì)于隱私政策文本數(shù)據(jù),提取出其中聲明收集的隱私信息的關(guān)鍵在于定位與收集相關(guān)的句子。一般而言,隱私政策在聲明信息收集的時(shí)候,會(huì)有(收集類或分享類行為動(dòng)詞,數(shù)據(jù)對(duì)象)這樣的二元組出現(xiàn)。因此利用自然語言處理的命名實(shí)體識(shí)別及詞性標(biāo)注等技術(shù)有很大的潛力。但是,將自然語言處理技術(shù)直接應(yīng)用于隱私政策的隱私信息收集中,仍然存在如下技術(shù)問題亟待解決:
一、哪些文字在闡述隱私信息的收集?
二、哪些屬于隱私信息?
三、對(duì)隱私信息的描述是否統(tǒng)一?若不統(tǒng)一,該如何進(jìn)行歸一化?
目前沒有發(fā)現(xiàn)同本發(fā)明類似技術(shù)的說明或報(bào)道,也尚未收集到國內(nèi)外類似的資料。
發(fā)明內(nèi)容
本發(fā)明針對(duì)現(xiàn)有技術(shù)中存在的上述不足,提供了一種將自然語言處理技術(shù)應(yīng)用于隱私政策自動(dòng)化分析中的一種基于自然語言處理的隱私政策中隱私信息提取方法、裝置及終端。
根據(jù)本發(fā)明的一個(gè)方面,提供了一種隱私政策中隱私信息提取方法,包括:
獲取應(yīng)用的隱私政策原始數(shù)據(jù),并對(duì)不同格式的隱私政策原始數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,得到通用文本格式的隱私政策數(shù)據(jù),并對(duì)得到的所述通用文本格式的隱私政策數(shù)據(jù)進(jìn)行分句,拆解成多個(gè)單獨(dú)的句子;
利用預(yù)先摘取的用于描述隱私信息的句子對(duì)既有的自然語言處理模型進(jìn)行擴(kuò)展訓(xùn)練,得到隱私政策領(lǐng)域的語言處理模型,并利用得到的所述隱私政策領(lǐng)域的語言處理模型對(duì)每個(gè)句子進(jìn)行詞性標(biāo)注與命名實(shí)體識(shí)別,進(jìn)而將包含有行為動(dòng)詞與數(shù)據(jù)對(duì)象的句子篩選出來,得到(行為動(dòng)詞,數(shù)據(jù)對(duì)象)二元組的集合;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海交通大學(xué),未經(jīng)上海交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110609050.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F21-00 防止未授權(quán)行為的保護(hù)計(jì)算機(jī)或計(jì)算機(jī)系統(tǒng)的安全裝置
G06F21-02 .通過保護(hù)計(jì)算機(jī)的特定內(nèi)部部件
G06F21-04 .通過保護(hù)特定的外圍設(shè)備,如鍵盤或顯示器
G06F21-06 .通過感知越權(quán)操作或外圍侵?jǐn)_
G06F21-20 .通過限制訪問計(jì)算機(jī)系統(tǒng)或計(jì)算機(jī)網(wǎng)絡(luò)中的節(jié)點(diǎn)
G06F21-22 .通過限制訪問或處理程序或過程
- 政策文件處理方法及裝置
- 一種基于深度學(xué)習(xí)的政策解讀方法及政策解讀系統(tǒng)
- 政策力度分析的方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 產(chǎn)品政策的配置方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種科技信息政策發(fā)布方法及系統(tǒng)
- 企業(yè)政策信息匹配方法及系統(tǒng)
- 一種用于數(shù)字政務(wù)的智能政策匹配方法及系統(tǒng)
- 一種基于深度學(xué)習(xí)的政策解讀方法
- 政策信息的推送方法和裝置
- 一種政策譜系構(gòu)建方法、裝置和電子設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





