[發(fā)明專利]一種面向密文搜索的分詞組織方法和聚類方法無效
| 申請(qǐng)?zhí)枺?/td> | 201210222787.7 | 申請(qǐng)日: | 2012-06-28 |
| 公開(公告)號(hào): | CN102708216A | 公開(公告)日: | 2012-10-03 |
| 發(fā)明(設(shè)計(jì))人: | 陸月明;馬良;袁玉宇 | 申請(qǐng)(專利權(quán))人: | 北京郵電大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100876 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面向 搜索 分詞 組織 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及應(yīng)用于搜索引擎的一種面向密文搜索的分詞組織方法和聚類方法,屬于計(jì)算機(jī)科學(xué)技術(shù)領(lǐng)域。
背景技術(shù)
目前互聯(lián)網(wǎng)上的服務(wù)產(chǎn)生的數(shù)據(jù)量越來越大,典型的互聯(lián)網(wǎng)服務(wù)(如微博、搜索引擎、社區(qū)網(wǎng)站、視頻應(yīng)用等)產(chǎn)生了超大規(guī)模的數(shù)據(jù)量,這樣,大數(shù)據(jù)處理技術(shù)應(yīng)運(yùn)而生,大數(shù)據(jù)處理技術(shù)其核心是一種數(shù)據(jù)密集型計(jì)算技術(shù),典型的是云計(jì)算技術(shù)。
伴隨著云計(jì)算技術(shù)的出現(xiàn),包括云存儲(chǔ)技術(shù)、云搜索技術(shù)、虛擬機(jī)計(jì)算技術(shù)的出現(xiàn),應(yīng)用互聯(lián)網(wǎng)云計(jì)算的服務(wù)全部集中于公共數(shù)據(jù)的服務(wù),無論搜索引擎還是微博,在一定程度上公開的全是被認(rèn)為不是太私密的數(shù)據(jù)。隨著微博等實(shí)名制的出現(xiàn),用戶私有數(shù)據(jù)的保護(hù)提到日程上來了,而云計(jì)算是第三方提供的計(jì)算,這種計(jì)算的安全性受到用戶及高端客戶的質(zhì)疑。云數(shù)據(jù)的安全成為最大的一個(gè)挑戰(zhàn),云計(jì)算中數(shù)據(jù)隱私保護(hù)技術(shù)成為第一需要解決的問題。
計(jì)算資源、網(wǎng)絡(luò)資源和存儲(chǔ)資源的安全技術(shù)目前在各自的領(lǐng)域發(fā)展著。隨著云計(jì)算的發(fā)展,人們對(duì)計(jì)算及存儲(chǔ)的安全研究顯得更加迫切。計(jì)算的安全性及可信計(jì)算方面研究方向很多,但針對(duì)云計(jì)算的加密計(jì)算是2010年以后發(fā)展起來的,目前主要有兩個(gè)方向,一個(gè)量子計(jì)算機(jī)安全計(jì)算方向,另一個(gè)是同態(tài)加密算法。這兩個(gè)方向的研究成果目前還沒有到達(dá)實(shí)際應(yīng)用,主要是全同態(tài)加密算法和量子計(jì)算機(jī)技術(shù)都不是很成熟,部分技術(shù)和關(guān)鍵問題還在攻克。
本發(fā)明提出一種面向密文搜索的分詞組織方法和聚類方法,該發(fā)明通過內(nèi)容理解和加密數(shù)據(jù)計(jì)算兩種方法結(jié)合的策略,通過明文分詞方法來理解文檔內(nèi)容,通過加密數(shù)據(jù)計(jì)算(聚類)來實(shí)現(xiàn)隱私保護(hù)及信息聚類。
發(fā)明內(nèi)容
本發(fā)明“一種面向密文搜索的分詞組織方法和聚類方法”包括兩部分:客戶端文檔分詞組織方法、服務(wù)器端加密數(shù)據(jù)聚類方法。
(1)客戶端文檔分詞組織方法
分詞(如“中文分詞”)是一種基于“語義”對(duì)文章、段落(這里稱為“文檔”)進(jìn)行劃分詞組的技術(shù),是搜索引擎中的一項(xiàng)重要的技術(shù)。目前中科院和復(fù)旦大學(xué)等都進(jìn)行了研究,并取得了很好的效果。分詞模塊在搜索引擎中的組織是設(shè)置在服務(wù)器端的(如百度等云計(jì)算服務(wù)器,這里稱為公有設(shè)備),也就是文檔(包括HTML格式文檔、微軟的Word格式文檔、PDF格式文檔)從網(wǎng)絡(luò)中獲取后,服務(wù)器端馬上對(duì)文檔進(jìn)行分詞,由文檔變成“詞組”。這一種在服務(wù)器端的分詞組織方式是針對(duì)公共服務(wù)的一種分詞組織方式。這一種組織方式的挑戰(zhàn)是文檔對(duì)服務(wù)器是透明的,不能保護(hù)文檔的隱私。
而面向非公共服務(wù)的系統(tǒng)中,如在公有云中建有私有云網(wǎng)絡(luò)的應(yīng)用,特別是用戶私有信息或單位私有信息,這些信息的隱私性需要保護(hù),不能被提供公共服務(wù)的服務(wù)器知道,所以需要設(shè)計(jì)出一種“新型的分詞組織方式”。
本專利提出的客戶端文檔分詞組織方法是在客戶端(包括人們的計(jì)算機(jī)、手機(jī)的私有接入設(shè)備)進(jìn)行的一種分詞組織方式,存在于客戶端私有設(shè)備的分詞模塊中,以避免在分詞的過程中泄露客戶的隱私信息。為了保持原有的信息,必須對(duì)原文檔進(jìn)行特征抽取和分詞。
與公用搜索引擎(如百度)不同,私有文檔的搜索的文檔主要來自用戶本身產(chǎn)生的文檔,用戶對(duì)這些文檔在服務(wù)器端公用設(shè)備的存儲(chǔ)存在戒心,所以這些文檔的明文不可能存在服務(wù)器端,但為了在服務(wù)器端實(shí)現(xiàn)存儲(chǔ)、搜索,客戶端私有設(shè)備必須承擔(dān)一部分計(jì)算任務(wù):客戶端分詞。
客戶端分詞方法是一種新型的計(jì)算方法,客戶端分詞模塊存在于如圖1所示的結(jié)構(gòu)中,該模塊主要包括對(duì)文檔進(jìn)行分詞、分詞加密、文檔特征向量的抽取、文檔加密、文檔概要加密五項(xiàng)功能。
(1)文檔分詞。文檔進(jìn)行分詞是指對(duì)原始文檔按照語義進(jìn)行分詞,與通用的文檔分詞具有相同的功能。
(2)分詞加密。分詞加密是指為了把分詞存儲(chǔ)到服務(wù)器上和為下一步的基于分詞的聚類和搜索而進(jìn)行的分詞加密,加密后,存儲(chǔ)到服務(wù)器上的分詞為分詞密文。
(3)文檔特征向量的抽取。文檔特征向量的抽取是為了實(shí)現(xiàn)文檔的聚類而實(shí)現(xiàn)的文檔量化描述,這部分是基于明文抽取,在服務(wù)器上保存。
(4)文檔加密。文檔加密是為了在服務(wù)器上保存文檔數(shù)據(jù)而采取的加密算法。
(5)文檔概要。對(duì)用戶的文檔進(jìn)行概要,有利于文檔的搜索。
表1描述了客戶端分詞模塊的主要操作以及內(nèi)容在客戶端私有終端設(shè)備和服務(wù)器端公有設(shè)備之間存儲(chǔ)的內(nèi)容。可以看出,為了保護(hù)內(nèi)容隱私,所有的分詞活動(dòng)和加密活動(dòng)必須在客戶端私有終端設(shè)備上完成。
表1主要的操作和內(nèi)容類型
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京郵電大學(xué),未經(jīng)北京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210222787.7/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)





