[發明專利]保護隱私的文本分類方法及裝置有效
| 申請號: | 202010691952.8 | 申請日: | 2020-07-17 |
| 公開(公告)號: | CN111737719B | 公開(公告)日: | 2020-11-24 |
| 發明(設計)人: | 李龍飛;周俊 | 申請(專利權)人: | 支付寶(杭州)信息技術有限公司 |
| 主分類號: | G06F21/60 | 分類號: | G06F21/60;G06F21/62;G06F21/53;G06F16/35 |
| 代理公司: | 北京億騰知識產權代理事務所(普通合伙) 11309 | 代理人: | 張明;周良玉 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 保護 隱私 文本 分類 方法 裝置 | ||
1.一種保護隱私的文本分類方法,通過第一服務器執行,包括:
接收數據請求方發送的文本分類請求,所述文本分類請求至少包括采用所述數據請求方的第一公鑰進行加密的待分類文本;
基于數據提供方提供的加密樣本文本,構建詞組集合;所述加密樣本文本采用所述第一公鑰對樣本文本加密得到,所述詞組集合中的每個詞組由所述加密樣本文本中的一個或多個加密樣本詞組成;
確定加密詞頻,所述加密詞頻為所述詞組集合中各詞組在所述加密的待分類文本中的詞頻統計的加密值;
至少向第二服務器發送所述加密詞頻,以使得所述第二服務器將所述加密詞頻加載到其可信執行環境TEE中,在所述TEE中,對所述加密詞頻進行解密,并將解密結果輸入預先部署在所述TEE中的文本分類模型,得到所述待分類文本的分類結果,其中所述文本分類模型基于所述樣本文本訓練得到;
所述文本分類請求還包括初始加密詞頻,所述初始加密詞頻采用所述數據請求方的第三公鑰對隨機數加密得到;所述確定加密詞頻包括:
對于所述詞組集合中的各詞組,通過迭代地修改所述初始加密詞頻,對所述各詞組在所述加密的待分類文本中的詞頻進行統計,得到所述各詞組的加密統計結果;將所述各詞組的加密統計結果作為所述各詞組的加密詞頻。
2.根據權利要求1所述的方法,所述確定加密詞頻包括:
對于所述詞組集合中各詞組在所述加密的待分類文本中的詞頻進行統計;
采用所述數據請求方的第二公鑰,對所述各詞組的統計結果進行加密,得到所述加密詞頻。
3.根據權利要求2所述的方法,所述對于所述詞組集合中各詞組在所述加密的待分類文本中的詞頻進行統計,包括:
對于所述詞組集合中任意的第一詞組,依次對所述第一詞組與所述加密的待分類文本中的各詞組進行同態減法計算,并統計計算結果為預定數值的第一數目,將所述第一數目作為所述第一詞組的統計結果。
4.根據權利要求1所述的方法,所述各詞組包括第一詞組;所述通過迭代地修改所述初始加密詞頻,對所述各詞組在所述加密的待分類文本中的詞頻進行統計,包括:
對于所述第一詞組,依次對所述第一詞組與所述加密的待分類文本中的各詞組進行同態減法計算,若與任一詞組的計算結果為預定數值,則將所述初始加密詞頻與1相加后作為新的初始加密詞頻;將達到統計結束條件時的初始加密詞頻作為所述第一詞組的加密統計結果。
5.一種保護隱私的文本分類方法,通過第二服務器執行;所述第二服務器包括可信執行環境TEE,所述TEE中部署有文本分類模型;所述方法包括:
接收第一服務器發送的加密詞頻;所述加密詞頻為詞組集合中各詞組在加密的待分類文本中的詞頻統計的加密值;各詞組的加密詞頻均通過迭代地修改從數據請求方接收的初始加密詞頻得到;所述初始加密詞頻采用所述數據請求方的第三公鑰對隨機數加密得到;
所述詞組集合由所述第一服務器基于數據提供方提供的加密樣本文本構建得到;所述加密樣本文本采用數據請求方的第一公鑰對樣本文本加密得到;所述加密的待分類文本采用所述第一公鑰對待分類文本加密得到;
將所述加密詞頻加載到所述TEE中,在所述TEE中,對所述加密詞頻進行解密;
將解密結果輸入所述文本分類模型,得到所述待分類文本的分類結果,其中所述文本分類模型基于所述樣本文本訓練得到。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于支付寶(杭州)信息技術有限公司,未經支付寶(杭州)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010691952.8/1.html,轉載請聲明來源鉆瓜專利網。





