[發(fā)明專利]基于語義的文檔指紋構(gòu)建方法、存儲介質(zhì)和計算機(jī)設(shè)備在審
| 申請?zhí)枺?/td> | 201811266721.1 | 申請日: | 2018-10-29 |
| 公開(公告)號: | CN109344407A | 公開(公告)日: | 2019-02-15 |
| 發(fā)明(設(shè)計)人: | 宋鵬舉 | 申請(專利權(quán))人: | 北京天融信網(wǎng)絡(luò)安全技術(shù)有限公司;北京天融信科技有限公司;北京天融信軟件有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F21/62 |
| 代理公司: | 工業(yè)和信息化部電子專利中心 11010 | 代理人: | 秦瑩 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語義 文檔數(shù)據(jù) 指紋 計算機(jī)設(shè)備 存儲介質(zhì) 構(gòu)建 文檔 詞匯 電子文檔數(shù)據(jù) 電子文檔 語義分析 有效地 泄露 采集 安全 | ||
本發(fā)明提出了一種基于語義的文檔指紋構(gòu)建方法、存儲介質(zhì)和計算機(jī)設(shè)備,其中,所述方法包括:采集需要保護(hù)的文檔數(shù)據(jù);對所述文檔數(shù)據(jù)進(jìn)行語義分析獲得多個有用詞匯;根據(jù)所有所述有用詞匯生成所述文檔數(shù)據(jù)對應(yīng)的語義指紋。這樣能夠安全有效地保護(hù)具有相似語義的電子文檔,降低了電子文檔數(shù)據(jù)泄露的風(fēng)險。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機(jī)數(shù)據(jù)安全領(lǐng)域,尤其涉及文檔指紋的獲取方法,具體來說就是一種基于語義的文檔指紋構(gòu)建方法、存儲介質(zhì)和計算機(jī)設(shè)備。
背景技術(shù)
電子文檔在辦公、教學(xué)等工作中給人們帶來方便的同時,也存在巨大的安全風(fēng)險。電子文檔的安全越來越被人們關(guān)注,日常工作及生活中有很多重要的電子文檔需要保護(hù),而電子文檔的價值只有在使用過程中才會體現(xiàn)出來,在有效保護(hù)數(shù)據(jù)的前提下充分使用數(shù)據(jù),成為人們的迫切需求。
文檔指紋(Document Fingerprinting)亦稱文件指紋,通過抽取文件的特征生成文檔指紋,通過文檔指紋能夠完成對重要數(shù)據(jù)的保護(hù)。在現(xiàn)有文檔指紋技術(shù)方案中,通常采用某種特征抽取方法,直接對電子文檔進(jìn)行特征抽取,然后對抽取的特征采用某種技術(shù)構(gòu)建文檔指紋。其中,常用的特征抽取方法包括基于滑動窗口的方法,基于中文分詞權(quán)重度量的方法,基于二進(jìn)制的方法。但是,現(xiàn)有文檔指紋技術(shù)雖然能夠?qū)﹄娮游臋n構(gòu)建有效文檔指紋,但并沒有理解文檔的語義。通常一份電子文檔,可以通過不同的敘述方法,完成相同的語義內(nèi)容,因此,現(xiàn)有文檔指紋技術(shù)不能完成相似語義內(nèi)容電子文檔的安全防護(hù)。
因此,本領(lǐng)域技術(shù)人員亟需研發(fā)一種電子文檔的指紋構(gòu)建方法,能夠有效安全地防護(hù)具有相似語義的電子文檔。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明要解決的技術(shù)問題在于提供一種基于語義的文檔指紋構(gòu)建方法、存儲介質(zhì)和計算機(jī)設(shè)備,解決了現(xiàn)有文檔指紋不能有效保護(hù)相似語義電子文檔的問題。
為了解決上述技術(shù)問題,本發(fā)明的具體實(shí)施方式提供一種基于語義的文檔指紋構(gòu)建方法,包括:采集需要保護(hù)的文檔數(shù)據(jù);對所述文檔數(shù)據(jù)進(jìn)行語義分析獲得多個有用詞匯;根據(jù)所有所述有用詞匯生成所述文檔數(shù)據(jù)對應(yīng)的語義指紋。
進(jìn)一步地,基于語義的文檔指紋構(gòu)建方法還包括:根據(jù)多個所述文檔數(shù)據(jù)的所述語義指紋生成語義指紋庫。
進(jìn)一步地,基于語義的文檔指紋構(gòu)建方法還包括:抽取待檢文檔數(shù)據(jù)的語義;將所述語義與所述語義指紋庫中的所述語義指紋進(jìn)行比對;根據(jù)比對結(jié)果處理所述待檢文檔數(shù)據(jù)。
其中,處理所述待檢文檔數(shù)據(jù)具體包括:對所述待檢文檔數(shù)據(jù)進(jìn)行阻斷、告誡或放行操作。
進(jìn)一步地,對所述文檔數(shù)據(jù)進(jìn)行語義分析獲得多個有用詞匯的步驟具體包括:利用語義分析算法對所述文檔數(shù)據(jù)進(jìn)行語義分析獲得多個詞匯;度量所述詞匯的重要度;根據(jù)所述重要度過濾掉多個所述詞匯中的停用詞匯獲得多個所述有用詞匯。
其中,所述語義分析算法包括:基于詞典的雙向匹配分詞算法、基于HMM的詞法分析方法和基于CRF的詞法分析方法。
進(jìn)一步地,根據(jù)所有所述有用詞匯生成所述文檔數(shù)據(jù)對應(yīng)的語義指紋的步驟具體包括:根據(jù)所有所述有用詞匯構(gòu)建Term-Doc矩陣;利用矩陣奇異值分解算法分解所述Term-Doc矩陣得到左向量、右向量和特征矩陣;根據(jù)預(yù)設(shè)指紋大小對所述特征矩陣進(jìn)行降維處理得到降維特征矩陣;根據(jù)所述左向量、所述降維特征矩陣和所述右向量獲得所述Term-Doc矩陣的近似矩陣;根據(jù)所述近似矩陣生成所述文檔數(shù)據(jù)對應(yīng)的語義指紋。
進(jìn)一步地,根據(jù)所述近似矩陣生成所述文檔數(shù)據(jù)對應(yīng)的語義指紋的步驟具體包括:將所述近似矩陣每行作為一個特征向量;根據(jù)所有所述特征向量直接拼接所述文檔數(shù)據(jù)的語義指紋。
本發(fā)明的具體實(shí)施方式還提供一種存儲介質(zhì),所述存儲介質(zhì)上存儲有計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)基于語義的文檔指紋構(gòu)建方法的步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京天融信網(wǎng)絡(luò)安全技術(shù)有限公司;北京天融信科技有限公司;北京天融信軟件有限公司,未經(jīng)北京天融信網(wǎng)絡(luò)安全技術(shù)有限公司;北京天融信科技有限公司;北京天融信軟件有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811266721.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





