[發明專利]避免中文自然語言信息隱藏嵌密前后分詞不一致的方法無效
| 申請號: | 201110122787.5 | 申請日: | 2011-05-12 |
| 公開(公告)號: | CN102201046A | 公開(公告)日: | 2011-09-28 |
| 發明(設計)人: | 何路;陳長安;吳建濤;房鼎益 | 申請(專利權)人: | 西北大學 |
| 主分類號: | G06F21/00 | 分類號: | G06F21/00 |
| 代理公司: | 西安恒泰知識產權代理事務所 61216 | 代理人: | 李婷 |
| 地址: | 710069 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 避免 中文 自然語言 信息 隱藏 前后 分詞 不一致 方法 | ||
技術領域
本發明涉及自然語言信息隱藏領域,特別涉及一種避免中文自然語言信息隱藏嵌密前后分詞不一致的方法。
背景技術
隨著計算機網絡的發展,數字視頻、數字音頻、電子文檔等數字產品都可以通過網絡迅速傳播到全球各地。由于這些數字產品制作成本低、可以無限復制、在網絡上傳播的速度非常快,導致盜版和攻擊數字產品變得輕而易舉。鑒于此,近幾年數字產品的安全防護以及版權保護越來越受到商業界和學術界的重視。
目前針對數字產品的保護方式主要包括加密方式和信息隱藏方式,傳統的加密方式可以有效的保護數據傳輸過程中的信息安全,但是數據一旦被所有者接收并解密,就無法繼續起到保護作用,而且也不能防范所有者對解密后的數據進行復制和傳播。
針對傳統加密方式的不足,很多研究者開始關注一種新的安全技術即信息隱藏技術。所謂信息隱藏是將秘密信息隱藏在非機密的載體內容之中,載體形式可以是視頻、音頻、圖像或文本文檔等。在所有的載體形式中,文本文檔是人們進行信息交換的主要方式之一,尤其軍事部門,政府機關,國家安全部門,商業機構的機密文件都需要得到有效保護。
自然語言信息隱藏是指通過對文本內容進行語義的等價替換或者語態轉換,從而把秘密信息嵌入到載體文本中。根據文本變換所涉及的層次不同,又可以將自然語言信息隱藏分為:基于同義詞替換的信息隱藏、基于句法的信息隱藏以及基于語義的信息隱藏。
上述方法中,由于詞法分析技術已經比較成熟,而句法分析和語義分析的技術研究還處于探索階段,所以基于同義詞替換的信息隱藏方法是比較流行的,這種方法使用載體文本中的同義詞承載秘密信息。
目前,英文文本同義詞替換的方法已經有了很多研究成果。研究人員提出了一系列的算法,可以讓秘密信息隱藏得更加隱蔽或者不易被攻擊者破壞。與之相比,中文文本的同義詞替換方法在借鑒英文文本同義詞替換方法的時候,由于語言體系的差異遇到了特有的困難,最為突出的是中文分詞問題。
中文文章的句子是一長串連續的漢字,不像英文單詞直接通過空格分隔開。目前,現有的中文分詞工具,比如中國科學院計算技術研究所的分詞工具ICTCLAS、哈工大信息檢索研究中心的分詞工具LTP,分詞正確率都達不到100%,這就可能造成文章嵌密前后分詞結果不一致,導致秘密信息提取錯誤。
例如:中文原句“我手指頭流血了”。ICTCLAS對原句的分詞結果是:“我?手指頭?流血?了”。其中“手指頭”有同義詞“手指”,“流血”有同義詞“出血”。兩者都可以承載秘密信息。我們有下表
通過同義詞替換,可以獲得的含密新句子與對應的ICTCLAS分詞結果如下表:
原句與新句3比較發現:含密句子分詞結果與原句不一致,“手指”和“出血”沒被正確的切分出來,導致兩者承載的秘密信息丟失。并且原句與新句1比較可知,如果“流血”沒有被替換成“出血”,只把“手指頭”替換成“手指”,那么含密句子分詞結果是與原句一致的。由此可見,同義詞替換可能導致含密新句分詞結果與原句不一致,并且含密句子中詞的切分結果,與句子其他詞的替換情況直接相關。
目前已經提出的解決嵌密前后分詞不一致的方法有兩類。第一類是基于物理相鄰的詞匯驗證方法。另一類是參考語義和語境的方法。這兩類方法都有各自的缺點和不足。
第一類基于物理相鄰的詞匯驗證方法的思路是,如果一個詞的同義詞替換上去后,含密的新句子分詞結果與原句不一致,那么就不使用這個詞承載秘密信息。這種方法雖然在一定程度上緩解了嵌密前后分詞不一致的問題,但是卻沒有把這種問題徹底解決:因為這種方法沒有考慮到一個句子中其他詞同時也可以被替換,所以無法保證含密句子與原句分詞一致。
比如上例,應用這種方法會出現以下結果:
嵌入時,原句“手指頭”和“流血”都可以承載秘密信息。因為通過這種預替換的方法生成的新句1、新句2分詞結果和原句一致。我們使用這兩個詞都承載秘密信息,可以生成新句3。
提取時,新句3的分詞結果顯示,“手指”和“出血”都被錯誤地切分了,新句3的分詞結果與原句不一致。可見,這種預替換的方法沒有100%地解決嵌密前后分詞不一致的問題。
第二類參考語義和語境的方法。這類方法其實也是預替換的思路,與基于物理相鄰的詞匯驗證方法的區別在于,這類方法考慮了上下文語境。現在已經提出了兩種屬于這種類別的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北大學,未經西北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110122787.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種平面板材裝飾上光工藝
- 下一篇:一種硫化橡膠的溶脹方法
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





