[發明專利]一種基于潛層語義分析的安全的文檔相似性計算方法和系統在審
| 申請號: | 201810113977.2 | 申請日: | 2018-02-05 |
| 公開(公告)號: | CN108519983A | 公開(公告)日: | 2018-09-11 |
| 發明(設計)人: | 陳小軍;于曉杰;時金橋;申立艷;王大魁;胡蘭蘭 | 申請(專利權)人: | 中國科學院信息工程研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙) 11200 | 代理人: | 邱曉鋒 |
| 地址: | 100093 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔相似性 語義分析 全局向量 敏感詞 泄露 語義分析模型 交集 加密技術 同態加密 文檔向量 安全 準確率 文檔 向量 集合 保證 暴露 | ||
1.一種基于潛層語義分析的安全的文檔相似性計算方法,其特征在于,包括以下步驟:
1)在不泄露敏感詞項的前提下,需進行文檔相似性計算的雙方借助私有的集合交集計算協議進行全局向量空間的約定;
2)所述雙方基于潛層語義分析模型和同態加密技術,進行基于向量的安全的文檔相似性計算。
2.如權利要求1所述的方法,其特征在于,計算所述雙方中第一方的一篇文檔q與第二方的一個文檔集D之間的全局相似性時,步驟1)將第二方的詞項空間V作為全局的向量空間W,并將W分作兩部分:U∩V和V-U∩V,其中U是第一方的詞項空間。
3.如權利要求2所述的方法,其特征在于,步驟1)包括:
1-1)使用私有的集合交集計算協議計算U∩V,計算完成后,雙方均只能知道U∩V的內容;
1-2)第二方根據V和U∩V計算得到V-U∩V;第一方的文檔集中不存在V-U∩V的詞項,其對應項填充0;
1-3)在第二方的敏感信息不暴露給第一方的情況下,第一方將自己的文檔q表示成向量第二方將自己的文檔集D表示成詞項-文檔矩陣B。
4.如權利要求3所述的方法,其特征在于,步驟2)進行文檔相似性計算的過程包括:
1)第二方使用奇異值分解對B進行操作,獲得B的k階逼近矩陣;
2)第一方使用同態加密方法進行加密計算,然后將加密后的文檔向量發送給第二方;
3)第二方接收加密后的文檔向量在密文空間對該文檔向量進行降維,最終獲得加密后的降維向量并將發送給第一方;
4)第一方接收加密后的降維向量解密得到對進行歸一化處理;然后將歸一化后的降維向量再進行同態加密得到將發送給第二方;
5)第二方接收在密文空間計算即可得到和文檔集D的m個加密相似度結果其中m是文檔集D的數量,并將發回給第一方;
6)第一方解密最終得到文檔q和文檔集D的m個相似度數值。
5.如權利要求1至4中任一權利要求所述的方法,其特征在于,通過約定全局向量空間,保證不暴露一方的敏感詞項給另一方;通過使用同態加密技術在兩方之間進行基于潛層語義分析的文檔相似性計算,保證不泄露各自的文檔向量。
6.一種基于潛層語義分析的安全的文檔相似性計算系統,其特征在于,包括第一計算機裝置和第二計算機裝置;第一計算機裝置中存儲第一文檔集,第二計算機裝置中存儲第二文檔集;第一計算機裝置和第二計算機裝置在不泄露敏感詞項的前提下,借助私有的集合交集計算協議進行全局向量空間的約定,然后基于潛層語義分析模型和同態加密技術,進行基于向量的安全的文檔相似性計算。
7.如權利要求5所述的系統,其特征在于,計算第一計算機裝置中存儲的一篇文檔q與第二計算機裝置中存儲的第二文檔集D之間的全局相似性時,將第二文檔集的詞項空間V作為全局的向量空間W,并將W分作兩部分:U∩V和V-U∩V,其中U是第一計算機裝置的詞項空間。
8.如權利要求6所述的系統,其特征在于,所述進行全局向量空間的約定包括:使用私有的集合交集計算協議計算U∩V,計算完成后,雙方均只能知道U∩V的內容;第二計算機裝置根據V和U∩V計算得到V-U∩V;第一計算機裝置存儲的文檔集中不存在V-U∩V的詞項,其對應項填充0;在第二計算機裝置的敏感信息不暴露給第一計算機裝置的情況下,第一計算機裝置將自己的文檔q表示成向量第二計算機裝置將自己的文檔集D表示成詞項-文檔矩陣B。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院信息工程研究所,未經中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810113977.2/1.html,轉載請聲明來源鉆瓜專利網。





