[發(fā)明專利]一種基于數(shù)值-字符串混合編碼的中文文檔基因量化與表征方法有效
| 申請?zhí)枺?/td> | 201610407743.X | 申請日: | 2016-06-12 |
| 公開(公告)號: | CN107491423B | 公開(公告)日: | 2021-03-30 |
| 發(fā)明(設(shè)計(jì))人: | 李巖 | 申請(專利權(quán))人: | 北京云量數(shù)盟科技有限公司 |
| 主分類號: | G06F40/126 | 分類號: | G06F40/126 |
| 代理公司: | 北京方安思達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 11472 | 代理人: | 陳琳琳;楊青 |
| 地址: | 100012 北京*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 數(shù)值 字符串 混合 編碼 中文 文檔 基因 量化 表征 方法 | ||
本發(fā)明針對一種28種混合特征的中文文檔基因,面向文檔保護(hù)與匹配檢測場景,提出了基于數(shù)值?字符串混合編碼的中文文檔基因量化與表征方法,將數(shù)值向量與字符串向量的特征區(qū)分開,單獨(dú)量化;進(jìn)一步定義特征內(nèi)部要素與特征間的編碼分隔符,最終以十六進(jìn)制混合編碼作為統(tǒng)一編碼方式,將該十六進(jìn)制數(shù)據(jù)塊寫入文件后,形成文檔基因編碼文件,大大提高了文檔的保護(hù)能力,防止非權(quán)限閱讀,便于特殊文檔在互聯(lián)網(wǎng)環(huán)境的存儲(chǔ)與匹配,可實(shí)現(xiàn)性和實(shí)用性較強(qiáng)。
技術(shù)領(lǐng)域
本發(fā)明屬于自然語言處理、特征選擇與提取、格式文檔編碼領(lǐng)域,具體涉及一種基于數(shù)值-字符串混合編碼的中文文檔基因量化與表征方法。
背景技術(shù)
無紙化辦公是指在不用紙張辦公,在無紙化辦公環(huán)境中進(jìn)行的一種工作方式,無紙化辦公需要硬件、軟件與通信網(wǎng)絡(luò)協(xié)力才能達(dá)到的辦公體驗(yàn)。現(xiàn)代化、信息化建設(shè)步伐的加快,無紙化辦公已經(jīng)由概念逐漸應(yīng)用到多個(gè)行業(yè)領(lǐng)域中。辦公無紙化導(dǎo)致公司和部門內(nèi)部的文檔文件激增,在這些文檔中又有許多內(nèi)部資料文檔和保密資料文檔,內(nèi)部資料文檔和保密資料文檔是不能輕易查看和流傳的,因此,需要一種方法對文檔進(jìn)行內(nèi)容保護(hù),又能用來進(jìn)行有效的文檔匹配,是一個(gè)迫切的需求。
解決這個(gè)問題的關(guān)鍵在于:1)定義合理的文檔基因,也即混合特征組合;2)選擇有效的計(jì)算方法,對特征進(jìn)行量化,包括特征的值類型定義;3)對混合特征的量化結(jié)果,進(jìn)行有效編碼,包括對特征內(nèi)部元素與特征間的有效分隔符。
由于具體應(yīng)用的不同,目前存在的中文特征編碼主要采用了向量化的計(jì)算方法,大多存儲(chǔ)為字符串向量,尤其以關(guān)鍵詞詞組向量為常見形式,作為文檔語義的字符串型刻畫與表征。然而,詞組向量在匹配方法中往往匹配準(zhǔn)確率不高,反而其他文檔統(tǒng)計(jì)特征如字?jǐn)?shù)、行數(shù)、段數(shù)等數(shù)值型向量往往可以起到關(guān)鍵作用。因此,必須差異化考慮數(shù)值型與字符串型向量的特征,將多種混合特征統(tǒng)一量化與編碼,形成有效的量化與編碼方法。
因此,本發(fā)明針對一種28種混合特征的中文文檔基因,面向文檔保護(hù)與匹配檢測場景,提出了基于數(shù)值-字符串混合編碼的中文文檔基因量化與表征方法,將數(shù)值向量與字符串向量的特征區(qū)分開,單獨(dú)量化;進(jìn)一步定義特征內(nèi)部與特征間的編碼分隔符,最終以十六進(jìn)制混合編碼作為統(tǒng)一編碼方式,對文檔關(guān)鍵內(nèi)容隱藏、保護(hù)及匹配檢測具有重要幫助作用,可實(shí)現(xiàn)性和實(shí)用性較強(qiáng)。
發(fā)明內(nèi)容
本發(fā)明針對一種28種混合特征的中文文檔基因,面向文檔保護(hù)與匹配檢測場景,提出了基于數(shù)值-字符串混合編碼的中文文檔基因量化與表征方法,將數(shù)值向量與字符串向量的特征區(qū)分開,單獨(dú)量化;進(jìn)一步定義向量內(nèi)部與向量間的編碼分隔符,最終以十六進(jìn)制混合編碼作為統(tǒng)一編碼方式,對文檔關(guān)鍵內(nèi)容隱藏、保護(hù)及匹配檢測具有重要幫助作用,可實(shí)現(xiàn)性和實(shí)用性較強(qiáng)。
本發(fā)明的內(nèi)容主要包括以下幾個(gè)方面。
第一,在文檔特征分類上,提出了基于特征值類型的特征分類方法,并進(jìn)一步總結(jié)并提出了28種混合特征的數(shù)值型類型和字符串向量類型的特征分類結(jié)果對照表,如表1和表2所示。數(shù)值型類型的文檔特征包括文件大小、文件創(chuàng)建時(shí)間、文件修改時(shí)間、文檔字?jǐn)?shù)、文檔句數(shù)、文檔段數(shù)。字符串向量類型的文檔特征包括文件名稱,MD5,SHA1,SHA256,SHA512,文檔類型,文檔標(biāo)題,文檔類別,文檔備注,文檔作者,文檔修訂號,文檔最后一次保存者,摘要,分詞,關(guān)鍵詞,短語,命名實(shí)體,依存句法,MinHash,SimHash,段間順序,句間順序。
表1 數(shù)值型特征表
表2 字符串向量型特征表
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京云量數(shù)盟科技有限公司,未經(jīng)北京云量數(shù)盟科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610407743.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)值控制方法及數(shù)值控制系統(tǒng)
- 數(shù)值保存系統(tǒng)、數(shù)值保存方法、數(shù)值保存程序和交易系統(tǒng)
- 數(shù)值筆
- 數(shù)值控制機(jī)床及數(shù)值控制裝置
- 數(shù)值控制裝置和數(shù)值控制方法
- 數(shù)值控制裝置以及數(shù)值控制方法
- 數(shù)值控制裝置、數(shù)值控制方法以及數(shù)值控制程序
- 數(shù)值控制裝置、數(shù)值控制方法以及數(shù)值控制程序
- 數(shù)值控制裝置和數(shù)值控制系統(tǒng)
- 數(shù)值控制裝置和數(shù)值控制系統(tǒng)





