[發明專利]一種基于潛層語義分析的安全的文檔相似性計算方法和系統在審
| 申請號: | 201810113977.2 | 申請日: | 2018-02-05 |
| 公開(公告)號: | CN108519983A | 公開(公告)日: | 2018-09-11 |
| 發明(設計)人: | 陳小軍;于曉杰;時金橋;申立艷;王大魁;胡蘭蘭 | 申請(專利權)人: | 中國科學院信息工程研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙) 11200 | 代理人: | 邱曉鋒 |
| 地址: | 100093 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔相似性 語義分析 全局向量 敏感詞 泄露 語義分析模型 交集 加密技術 同態加密 文檔向量 安全 準確率 文檔 向量 集合 保證 暴露 | ||
本發明涉及一種基于潛層語義分析的安全的文檔相似性計算方法和系統。該方法在不泄露敏感詞項的前提下,需進行文檔相似性計算的雙方借助私有的集合交集計算協議進行全局向量空間的約定;然后雙方基于潛層語義分析模型和同態加密技術,進行基于向量的安全的文檔相似性計算。本發明在約定全局向量空間時,可以保證不暴露一方的敏感詞項給另一方;在使用同態加密技術在兩方之間進行基于潛層語義分析的文檔相似性計算時,不會泄露各自的文檔向量。本發明在保證計算的安全性同時,能夠提高文檔相似計算的準確率與效率。
技術領域
本發明屬于信息技術領域,具體涉及一種基于潛層語義分析的安全的文檔相似性計算方法和系統。
背景技術
文檔相似性計算作為智能數據處理的一項基礎技術,在信息檢索、文本分類聚類等應用中發揮著關鍵作用,傳統的文檔相似性計算,如向量空間模型、Shingling模型和潛層語義分析模型(Latent semantic analysis)等,在以上應用中得到了廣泛使用。但這些傳統的技術,在計算文檔相似性時并未考慮保護參與計算的文檔內容的安全性,所以在需要保護參與計算的敏感文檔內容的應用場景中并不適用。
近些年,已有一些關于安全的文檔相似性計算的研究工作,主要分作兩條技術路線:一種是將文檔表示成指紋集合的形式后使用安全的集合相似性計算獲得文檔間的相似性,這種方法可以較好地衡量文檔間的局部相似性,例如在剽竊檢測中檢測相同的句子或者段落等;另一種是將文檔表示成向量的形式,然后借助安全的向量相似性計算獲得文檔間的相似性,這種方法可以較好地衡量文檔間的全局相似性,例如在信息檢索中,檢測兩個文檔共有的詞項分布情況。當前的基于向量的安全的文檔相似性計算方法,大多使用向量空間模型(Vector Space Model,VSM)來表示文檔,然后借助同態加密(HomomorphicEncryption)技術,進行向量間的相似性計算,進而獲得文檔間的相似性。
現有的這些使用向量空間模型進行安全的文檔相似性計算的方法,由于向量空間模型不能捕捉一詞多義或一義多詞,所以在衡量文檔相似性時還有提升的空間;并且參與計算的向量維度通常很高,進而導致計算的復雜度非常高。
發明內容
本發明旨在提出一種基于潛層語義分析的安全的文檔相似性計算方法和系統,在保證不泄露各自私有數據的前提下,計算一篇文檔與一個文檔集之間的全局相似性,在提高全局相似性計算效率的同時,降低計算的復雜度。
本發明采用的技術方案如下:
一種基于潛層語義分析的安全的文檔相似性計算方法,其特征在于,包括以下步驟:
1)在不泄露敏感詞項的前提下,需進行文檔相似性計算的雙方借助私有的集合交集計算協議進行全局向量空間的約定;
2)雙方基于潛層語義分析模型和同態加密技術,進行基于向量的安全的文檔相似性計算。
進一步地,計算第一方的一篇文檔q與第二方的一個文檔集D之間的全局相似性時,步驟1)將第二方的詞項空間V作為全局的向量空間W,并將W分作兩部分:U∩V和V-U∩V,其中U是第一方的詞項空間。
進一步地,步驟1)包括:
1-1)使用私有的集合交集計算協議計算U∩V,計算完成后,雙方均只能知道U∩V的內容;
1-2)第二方根據V和U∩V計算得到V-U∩V;第一方的文檔集中不存在V-U∩V的詞項,其對應項填充0;
1-3)在第二方的敏感信息不暴露給第一方的情況下,第一方將自己的文檔q表示成向量第二方將自己的文檔集D表示成詞項-文檔矩陣B。
進一步地,步驟2)進行文檔相似性計算的過程包括:
1)第二方使用奇異值分解對B進行操作,獲得B的k階逼近矩陣;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院信息工程研究所,未經中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810113977.2/2.html,轉載請聲明來源鉆瓜專利網。





