[發明專利]一種文本文檔亂碼檢測方法及系統有效
| 申請號: | 201310404498.3 | 申請日: | 2013-09-06 |
| 公開(公告)號: | CN104424165B | 公開(公告)日: | 2018-05-25 |
| 發明(設計)人: | 張鵬;李睿;馬靜山 | 申請(專利權)人: | 北大方正集團有限公司;北京方正阿帕比技術有限公司;方正信息產業控股有限公司 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22 |
| 代理公司: | 北京三聚陽光知識產權代理有限公司 11250 | 代理人: | 寇海俠 |
| 地址: | 100871 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 亂碼 文本文檔 編碼格式 檢測 常規字符 用戶體驗 原因判斷 綜合考慮 比對 判定 | ||
1.一種文本文檔亂碼檢測方法,其特征在于,包括如下步驟:
建立第一編碼范圍庫的步驟,所述第一編碼范圍庫包含被檢測文本文檔字符的編碼格式下所有常規字符的編碼范圍;
采樣步驟,從被檢測文本文檔中選取M個字符所對應的編碼,其中M為大于或等于1的整數,所述M個字符為在文本文檔中的隨機位置處選擇的連續的M個字符;
第一比對步驟,將所述采樣步驟中選取的M個字符所對應的編碼,分別與所述第一編碼范圍庫中的編碼進行比對,將在所述第一編碼范圍庫內獲得相同結果的編碼所對應的字符判定為非亂碼;將無法在所述第一編碼范圍庫內獲得相同結果的編碼所對應的字符判定為亂碼;
建立第二編碼范圍庫的步驟,所述第二編碼范圍庫中包含已有的所有編碼格式下所有字符的編碼范圍;
第二比對步驟,將被所述第一比對步驟判定為亂碼的字符所對應的編碼,分別與所述第二編碼范圍庫中的編碼進行比對,若被所述第一比對步驟判定為亂碼的字符所對應的編碼在所述第二編碼范圍庫內獲得相同結果的編碼,則恢復所述編碼對應的字符為非亂碼;若無法在所述第二編碼范圍庫內獲得相同結果的編碼,則判定所述編碼對應的字符為亂碼;
獲取所述被檢測文本文檔所在終端設備中的用于繪制字體的字體文件的步驟;
繪制字體的步驟,將所述第一比對步驟中判定為非亂碼的字符所對應的編碼,用所述字體文件進行繪制;
繪制判定步驟,將可以繪制成功的編碼所對應的字符判定為非亂碼;將無法繪制成功的編碼所對應的字符判定為亂碼。
2.根據權利要求1所述的文本文檔亂碼檢測方法,其特征在于:
所述繪制字體的步驟中,還包括如下操作,將所述第二比對步驟中恢復為非亂碼的字符所對應的編碼,用所述字體文件進行繪制。
3.根據權利要求 1或2任一所述的文本文檔亂碼檢測方法,其特征在于,所述采樣步驟中設定M=5。
4.根據權利要求3所述的文本文檔亂碼檢測方法,其特征在于,所述采樣步驟中選擇的M個字符所對應的編碼為連續的。
5.一種文本文檔亂碼檢測系統,其特征在于,包括:
采樣模塊(1),用于從被檢測文本文檔中選取M個字符所對應的編碼,其中M為大于或等于1的整數;
第一編碼范圍庫(2),用于存儲被檢測文本文檔字符的編碼格式下所有常規字符的編碼范圍;
第一比對模塊(3),用于將所述采樣模塊(1)選取的M個字符所對應的編碼,分別與所述第一編碼范圍庫(2)中的編碼進行比對,將在所述第一編碼范圍庫(2)內獲得相同結果的編碼所對應的字符判定為非亂碼;將無法在所述第一編碼范圍庫(2)內獲得相同結果的編碼所對應的字符判定為亂碼;
第二編碼范圍庫(4),用于存儲已有的所有編碼格式下所有字符的編碼范圍;
第二比對模塊(5),用于將所述第一比對模塊(3)判定為亂碼的字符所對應的編碼,分別與所述第二編碼范圍庫(4)中的編碼進行比對,若被所述第一比對模塊(3)判定為亂碼的字符所對應的編碼在所述第二編碼范圍庫(4)內獲得相同結果的編碼,則恢復所述編碼對應的字符為非亂碼;若無法在所述第二編碼范圍庫(4)內獲得相同結果的編碼,則判定所述編碼對應的字符為亂碼;
字體文件獲取模塊(6),用于獲取所述被檢測文本文檔所在終端設備中的用于繪制字體的字體文件;
字體繪制模塊(7),其包括第一字體繪制模塊(71),用于將所述第一比對模塊(3)判定為非亂碼的字符所對應的編碼,用所述字體文件獲取模塊(6)獲取的所述字體文件進行繪制;
繪制判斷模塊(8),用于根據繪制結果進行亂碼判定,將可以繪制成功的編碼所對應的字符判定為非亂碼;將無法繪制成功的編碼所對應的字符判定為亂碼。
6.根據權利要求5所述的文本文檔亂碼檢測系統,其特征在于,所述字體繪制模塊(7)還包括第二字體繪制模塊(72),用于將所述第二比對模塊(5)判定為非亂碼的字符所對應的編碼,用所述字體文件獲取模塊(6)獲取的所述字體文件進行繪制。
7.根據權利要求5或6任一所述的文本文檔亂碼檢測系統,其特征在于,所述采樣模塊(1)中的所述M取值為5。
8.根據權利要求7所述的文本文檔亂碼檢測系統,其特征在于,所述采樣模塊(1)所選擇的M個字符所對應的編碼為連續的。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北大方正集團有限公司;北京方正阿帕比技術有限公司;方正信息產業控股有限公司,未經北大方正集團有限公司;北京方正阿帕比技術有限公司;方正信息產業控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310404498.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:文本處理裝置和文本顯示系統
- 下一篇:透明表的光柵化處理方法和裝置





