[發(fā)明專利]基于正反向字詞庫的文件編碼識別方法及存儲介質(zhì)有效

申請?zhí)枺?/td>	202110207815.7	申請日：	2019-04-19
公開（公告）號：	CN113064862B	公開（公告）日：	2022-06-07
發(fā)明（設(shè)計）人：	劉德建;陳叢亮;郭玉湖	申請（專利權(quán)）人：	福建天晴數(shù)碼有限公司
主分類號：	G06F16/16	分類號：	G06F16/16;H03M7/30
代理公司：	福州市博深專利事務(wù)所(普通合伙) 35214	代理人：	顏麗蓉
地址：	350000 福建省福州市開發(fā)區(qū)君竹路8***	國省代碼：	福建;35
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	基于反向字詞文件編碼識別方法存儲介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種基于正反向字詞庫的文件編碼識別方法，其特征在于，包括：

采集樣本文件，所述樣本文件包括各種語言的非亂碼文本；

分別將所述樣本文件的文件編碼轉(zhuǎn)換為預(yù)設(shè)的編碼集合中的各編碼，并根據(jù)轉(zhuǎn)換后的樣本文件，生成各編碼對應(yīng)的正向字詞庫；

分別將所述樣本文件通過所述編碼集合中與其文件編碼不同的其他編碼進(jìn)行解碼，得到亂碼文件，并記錄所述亂碼文件的編碼轉(zhuǎn)化方向，所述編碼轉(zhuǎn)化方向包括文件編碼和解碼編碼；

根據(jù)所述亂碼文件，生成其編碼轉(zhuǎn)化方向?qū)?yīng)的反向字詞庫；

獲取待識別文件；

依次通過所述編碼集合中的一編碼對所述待識別文件進(jìn)行解碼；

獲取解碼后的待識別文件中的詞語和單字，并分別將所述詞語和單字在所述一編碼對應(yīng)的正向字詞庫以及第一編碼轉(zhuǎn)化方向?qū)?yīng)的反向字詞庫中進(jìn)行匹配，得到正向匹配數(shù)和反向匹配數(shù)，所述第一編碼轉(zhuǎn)化方向中的解碼編碼為所述一編碼；

若所述正向匹配數(shù)大于所述反向匹配數(shù)，則將所述一編碼作為所述待識別文件的文件編碼；

所述分別將所述樣本文件的文件編碼轉(zhuǎn)換為預(yù)設(shè)的編碼集合中的各編碼，并根據(jù)轉(zhuǎn)換后的樣本文件，生成各編碼對應(yīng)的正向字詞庫具體為：

將所述樣本文件的文件編碼轉(zhuǎn)換為預(yù)設(shè)的編碼集合中的一編碼；

獲取轉(zhuǎn)換后的樣本文件中所有的單字，生成所述一編碼對應(yīng)的正向字庫；

獲取轉(zhuǎn)換后的樣本文件中所有的連續(xù)且非空格的兩個字符，生成所述一編碼對應(yīng)的正向詞庫；

所述根據(jù)所述亂碼文件，生成其編碼轉(zhuǎn)化方向?qū)?yīng)的反向字詞庫具體為：

獲取一亂碼文件中所有的單字，生成所述一亂碼文件的編碼轉(zhuǎn)化方向?qū)?yīng)的反向字庫；

獲取一亂碼文件中所有連續(xù)且非空格的兩個字符，生成所述一亂碼文件的編碼轉(zhuǎn)化方向?qū)?yīng)的反向詞庫；

所述依次通過所述編碼集合中的一編碼對所述待識別文件進(jìn)行解碼的步驟至所述若所述正向匹配數(shù)大于所述反向匹配數(shù)則將所述一編碼作為所述待識別文件的文件編碼的步驟具體為：

獲取所述編碼集合中的一編碼，并通過所述一編碼對所述待識別文件進(jìn)行解碼；

獲取解碼后的待識別文件中的詞語，所述詞語為連續(xù)且非空格的兩個字符；

將所述詞語與所述一編碼對應(yīng)的正向詞庫進(jìn)行匹配，得到第一正向匹配數(shù)；

將所述詞語分別與第一編碼轉(zhuǎn)化方向?qū)?yīng)的各反向詞庫進(jìn)行匹配，得到所述各反向詞庫的第一反向匹配數(shù)，所述第一編碼轉(zhuǎn)化方向中的解碼編碼為所述一編碼；

將所述各反向詞庫的第一反向匹配數(shù)相加，得到第二反向匹配數(shù)；

若所述第一正向匹配數(shù)大于所述第二反向匹配數(shù)，則將所述一編碼作為待識別文件的文件編碼；

若所述第一正向匹配數(shù)小于所述第二反向匹配數(shù)，則獲取第一反向匹配數(shù)最大的反向詞庫對應(yīng)的編碼轉(zhuǎn)化方向中的文件編碼，并將所述文件編碼作為一編碼，繼續(xù)執(zhí)行所述通過所述一編碼對所述待識別文件進(jìn)行解碼的步驟；

若所述第一正向匹配數(shù)和第二反向匹配數(shù)相等且均不為零，則獲取所述編碼集合中的下一編碼，并將所述下一編碼作為一編碼，繼續(xù)執(zhí)行所述通過所述一編碼對所述待識別文件進(jìn)行解碼的步驟；

若所述第一正向匹配數(shù)和第二反向匹配數(shù)均為零，則獲取解碼后的待識別文件中的單字；

將所述單字與所述一編碼對應(yīng)的正向字庫進(jìn)行匹配，得到第二正向匹配數(shù)；

將所述單字分別與所述第一編碼轉(zhuǎn)化方向?qū)?yīng)的反向字庫進(jìn)行匹配，得到所述各反向字庫的第三反向匹配數(shù)；

將所述各反向字庫的第三反向匹配數(shù)相加，得到第四反向匹配數(shù)；

若所述第二正向匹配數(shù)大于所述第四反向匹配數(shù)，則將所述一編碼作為待識別文件的文件編碼；

若所述第二正向匹配數(shù)小于所述第四反向匹配數(shù)，則獲取第三反向匹配數(shù)最大的反向字庫對應(yīng)的編碼轉(zhuǎn)化方向中的文件編碼，并將所述文件編碼作為一編碼，繼續(xù)執(zhí)行所述通過所述一編碼對所述待識別文件進(jìn)行解碼的步驟；

若所述第二正向匹配數(shù)和第四反向匹配數(shù)相等，則獲取所述編碼集合中的下一編碼，并將所述下一編碼作為一編碼，繼續(xù)執(zhí)行所述通過所述一編碼對所述待識別文件進(jìn)行解碼的步驟。

2.根據(jù)權(quán)利要求1所述的基于正反向字詞庫的文件編碼識別方法，其特征在于，所述采集樣本文件之后，進(jìn)一步包括：

將所述樣本文件中的第一字符替換為空格，所述第一字符為ASCII碼表示的字母和符號。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于福建天晴數(shù)碼有限公司，未經(jīng)福建天晴數(shù)碼有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110207815.7/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種電子屏展示方法、系統(tǒng)及介質(zhì)
下一篇：自動識別文件編碼的方法及計算機(jī)可讀存儲介質(zhì)

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點擊【登陸】【注冊】