[發明專利]基于多任務學習的用戶隱私泄漏檢測方法、服務器及系統有效
| 申請號: | 201810540969.6 | 申請日: | 2018-05-30 |
| 公開(公告)號: | CN108830100B | 公開(公告)日: | 2021-11-30 |
| 發明(設計)人: | 宋雪萌;陳瀟琳;程志勇;王英龍;聶禮強 | 申請(專利權)人: | 山東大學 |
| 主分類號: | G06F21/62 | 分類號: | G06F21/62 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 張勇 |
| 地址: | 250061 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 任務 學習 用戶 隱私 泄漏 檢測 方法 服務器 系統 | ||
本發明公開了一種基于多任務學習的用戶隱私泄漏檢測方法、服務器及系統。其中,基于多任務學習的用戶隱私泄漏檢測方法包括:為全面表征用戶隱私,預先將用戶隱私分成若干個細粒度隱私類別,并將這些細粒度隱私類別劃分成若干個組,形成用戶隱私的組結構信息;從不同方向抽取用戶的隱私特征,來全方位表征用戶隱私類別;基于抽取的用戶隱私特征,構建預測模型;并引入多任務學習,同一組內的各個任務共享相關特征,利用組套索模型將用戶隱私的組結構信息作為先驗,進行特征分組,從而提高用戶隱私泄漏檢測的建模性能和模型的可解釋性。
技術領域
本發明屬于信息分類處理領域,尤其涉及一種基于多任務學習的用戶隱私泄漏檢測方法、服務器及系統。
背景技術
隨著Web2.0的快速發展,互聯網已經進入社交媒體時代,社交媒體已成為人們日常獲取信息、分享信息的重要平臺。隨著用戶暴露在社交媒體中的程度越來越大,隱私威脅逐漸成為關乎每個網絡用戶切身利益的重要問題。
近年來,有許多研究工作圍繞社交媒體用戶隱私泄漏檢測展開。現有的技術主要應用于結構化數據,對于非結構化數據,通常集中訓練有效的分類器,但是它們主要關注粗粒度隱私判斷,忽視隱私的相關性,使得模型的可解釋性較差。
發明內容
為了解決現有技術的不足,本發明的第一目的是提供一種基于多任務學習的用戶隱私泄漏檢測方法,其提高了用戶隱私泄漏檢測的建模性能和模型的可解釋性。
本發明的一種基于多任務學習的用戶隱私泄漏檢測方法,包括:
S1:為全面表征用戶隱私,預先將用戶隱私分成若干個細粒度隱私類別,并將這些細粒度隱私類別劃分成若干個組,形成用戶隱私的組結構信息;
S2:從不同方面抽取用戶的隱私特征,來全方位表征用戶隱私類別;
S3:基于抽取的用戶隱私特征,構建用戶隱私泄漏的預測模型;并引入多任務學習,同一組內的各個任務共享相關特征,利用組套索模型將用戶隱私的組結構信息作為先驗,進行特征分組,從而提高用戶隱私泄漏檢測的建模性能和模型的可解釋性。
進一步的,在所述步驟S1中,預先用戶隱私分成32個細粒度隱私類別,并將這些將細粒度隱私類別劃分到8個組內,這8個組分別為個人屬性、關系、活動、地點、情感、醫療保健、生活里程碑和中性陳述。
其中,中性陳述是指在不泄露其他7個組別信息的情況下發布的數據,除中性陳述小組外,其他七類小組都涉及私人問題。
本發明將用戶隱私類別分為8個組,32個細粒度隱私類別,可全面表征用戶隱私,完全涵蓋用戶個人隱私,包括姓名、年齡、健康狀況、家庭住址等類別,能夠對用戶隱私泄漏實現細粒度檢測。
需要說明的是,為全面表征用戶隱私,也可以預先將用戶隱私分成其他數量的細粒度隱私類別以及其他數量的組數。
進一步的,在所述步驟S2中,選取隱私特征提取工具,分別從隱私敏感、情感特征、元數據特征、文本特征和語詞計量這五個方面來抽取用戶的隱私特征。
例如:
本發明使用Privacy_dic、Sentiment、Meta features、Sen2Vec、LIWC工具,分別從隱私敏感、情感特征、元數據特征、文本特征和語詞計量這五個方面來抽取用戶的隱私特征,豐富抽取以隱私為導向的特征,為充分抓取用戶隱私泄露奠定基礎。
進一步的,在所述步驟S3構建預測模型的過程中,將由用戶隱私特征構成的特征向量通過線性預測模型,得到預測值;
基于預測值和利用預先分類而形成的標簽集合,使用二范數來構建損失函數;
為防止模型過擬合,在損失函數基礎上添加正則項,最終構建出用戶隱私泄漏的預測模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學,未經山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810540969.6/2.html,轉載請聲明來源鉆瓜專利網。





