[發(fā)明專利]一種基于聯(lián)邦學習增強隱私保護的個性化搜索系統(tǒng)有效
| 申請?zhí)枺?/td> | 202011415365.2 | 申請日: | 2020-12-07 |
| 公開(公告)號: | CN112507219B | 公開(公告)日: | 2023-06-02 |
| 發(fā)明(設計)人: | 竇志成;姚菁;文繼榮 | 申請(專利權(quán))人: | 中國人民大學 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/9538;G06F40/284;G06N3/045;G06N3/098 |
| 代理公司: | 北京中創(chuàng)陽光知識產(chǎn)權(quán)代理有限責任公司 11003 | 代理人: | 樊炳章;錢蕓 |
| 地址: | 100872 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 聯(lián)邦 學習 增強 隱私 保護 個性化 搜索 系統(tǒng) | ||
本發(fā)明通過人工智能領域的方法,實現(xiàn)了一種基于聯(lián)邦學習增強隱私保護的個性化搜索系統(tǒng),系統(tǒng)的硬件架構(gòu)由客戶端和服務器構(gòu)成,并構(gòu)建基于聯(lián)邦學習的個性化搜索框架,其中具體訓練的底層模型為個性化排序模型,通過聯(lián)邦學習的方式共同參與個性化排序模型的訓練,訓練得到的模型部署在各個客戶端上,在客戶端上發(fā)起查詢、存儲用戶的搜索歷史H、構(gòu)建用戶畫像P,對從服務器返回的非個性化結(jié)果進行重排后展示給用戶。解決了在利用用戶的查詢歷史挖掘用戶興趣來推斷當前的查詢意圖時,保護用戶隱私的問題;并且基于這個框架,設計了兩種模型,F(xiàn)edPSFlat和FedPSProxy,解決數(shù)據(jù)異質(zhì)性的問題,以及單層FedPSFlat面臨的性能瓶頸、通信障礙和隱私攻擊的問題。
技術領域
本發(fā)明涉及人工智能智能搜索領域,尤其涉及一種基于聯(lián)邦學習增強隱私保護的個性化搜索系統(tǒng)。
背景技術
個性化搜索主要是基于用戶興趣來調(diào)整文檔列表,以更好地滿足不同用戶利用同一個具有歧義的查詢所表達的不同的查詢意圖。現(xiàn)有的相關工作主要包括:基于話題、點擊或者其他特征的傳統(tǒng)個性化搜索模型和基于深度學習的個性化搜索模型。這些模型需要利用用戶的歷史查詢序列和點擊行為等個人信息來推斷用戶興趣和具體的查詢意圖,因此存在泄漏用戶隱私的風險。
目前搜索中的隱私保護技術主要考慮隱私的可識別性和可鏈接性。可識別性是指識別出用戶是誰,可鏈接性指的是通過用戶的查詢?nèi)罩竞托袨橥茢嘤脩舻膫€人興趣和其他信息。有些工作利用匿名的用戶id、群組用戶id或者由每個用戶發(fā)送其他用戶輸入的查詢等技術來掩蓋用戶的真實身份信息;有些工作對訓練數(shù)據(jù)進行處理避免訓練后的模型包含用戶的隱私信息,比如將原始的文本轉(zhuǎn)化成泛化屬性和屬性值;還有一些工作探究查詢混淆技術,伴隨用戶發(fā)出的真實查詢生成一些不相關的噪聲查詢來掩蓋用戶真實的查詢意圖以及用戶日志中能夠反映的用戶興趣。
現(xiàn)有的隱私保護技術都取得了一定的效果,但是他們?nèi)匀恍枰诜掌魃鲜占杏脩舻牟樵內(nèi)罩居糜谟柧殏€性化搜索模型。根據(jù)調(diào)查,大多數(shù)用戶都很擔心個人數(shù)據(jù)被收集、利用或發(fā)布。因此,我們最好是能夠?qū)崿F(xiàn)將用戶的隱私數(shù)據(jù)僅保留在個人的客戶端設備上。這樣的話,在每個客戶端上,我們能利用的就只有用戶個人的有限的數(shù)據(jù),這些數(shù)據(jù)也不足以訓練一個可靠的個性化搜索模型。為了能夠利用分布在所有客戶端上的大規(guī)模用戶日志來聯(lián)合訓練一個高質(zhì)量的個性化模型,我們基于聯(lián)邦學習設計了一個隱私保護增強的個性化搜索框架。
個性化搜索模型通過分析用戶個人的歷史查詢?nèi)罩緛斫⒂脩舢嬒瘢倩谟脩舢嬒駥ξ臋n列表進行重排從而為各個用戶返回更精確的搜索結(jié)果,這就存在用戶隱私泄露的危機。現(xiàn)有的隱私保護增強的個性化搜索模型主要通過利用匿名用戶id或者群組id來隱藏用戶真實的身份標識,或者伴隨用戶真實發(fā)出的查詢生成一些噪聲查詢來混淆用戶的查詢意圖。但是這些模型仍然會將用戶的查詢?nèi)罩颈┞督o中心服務器,他們需要在服務器上收集所有用戶的查詢?nèi)罩緛碛柧殏€性化模型,這依舊存在很大的隱私泄露危機。據(jù)調(diào)查,大多數(shù)用戶都不愿意自己的個人數(shù)據(jù)被收集、利用甚至是發(fā)布。因此,我們認為用戶個人的隱私數(shù)據(jù)應該僅僅被保留在客戶端本地,而不能上傳到服務器端或者在客戶端之間共享。然而,僅利用單個用戶的個人數(shù)據(jù)不足以訓練一個可靠的個性化搜索模型。為了在不暴露用戶個人數(shù)據(jù)的前提下利用分布在各個客戶端上的數(shù)據(jù)共同訓練一個高質(zhì)量的個性化搜索模型,我們提出了一個基于聯(lián)邦學習增強隱私保護的個性化搜索框架。通過這個框架,我們可以利用所有用戶的知識來共同訓練模型而不需要收集和交換用戶查詢?nèi)罩荆鰪娏穗[私保護。
發(fā)明內(nèi)容
為此,本發(fā)明提出了一種基于聯(lián)邦學習增強隱私保護的個性化搜索系統(tǒng)。系統(tǒng)的硬件架構(gòu)由客戶端和服務器構(gòu)成,并構(gòu)建基于聯(lián)邦學習的個性化搜索框架,其中具體訓練的底層模型為個性化排序模型,各個客戶端以及客戶端上存儲的數(shù)據(jù)通過聯(lián)邦學習的方式共同參與個性化排序模型的訓練,訓練得到的模型部署在各個客戶端上,在客戶端上用戶發(fā)起查詢、存儲用戶的搜索歷史H、構(gòu)建用戶畫像P,部署在客戶端上的個性化排序模型對從服務器返回的非個性化結(jié)果進行重排后展示給用戶;
通過所述服務器協(xié)調(diào)模型的訓練并將聚合后的模型發(fā)送至客戶端更新;
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國人民大學,未經(jīng)中國人民大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011415365.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:換蓋板機
- 下一篇:一種轉(zhuǎn)盤分揀機
- 一種Agent聯(lián)邦快速設計流程建模方法
- 基于聯(lián)邦模式的動態(tài)產(chǎn)品協(xié)同開發(fā)平臺及方法
- 一種面向深空通信的數(shù)據(jù)傳輸速率控制方法
- 一種HLA聯(lián)邦成員的動態(tài)部署分配方法
- 聯(lián)邦學習方法、系統(tǒng)、終端設備及存儲介質(zhì)
- 一種混合聯(lián)邦學習方法及架構(gòu)
- 聯(lián)邦學習的沙盒機制
- 聯(lián)邦模型參數(shù)確定方法、裝置、設備及存儲介質(zhì)
- 一種應用于異構(gòu)計算設備的聯(lián)邦學習系統(tǒng)和方法
- 基于區(qū)塊鏈的聯(lián)邦建模方法及裝置





