[發明專利]一種字符集檢測方法和裝置有效
| 申請號: | 201610096192.X | 申請日: | 2016-02-22 |
| 公開(公告)號: | CN105760364B | 公開(公告)日: | 2018-09-04 |
| 發明(設計)人: | 徐佳宏;朱呂亮;陳棟 | 申請(專利權)人: | 深圳市茁壯網絡股份有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 王仲凱 |
| 地址: | 518004 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 字符集 檢測 方法 裝置 | ||
本發明公開了一種字符集檢測方法和裝置,其中,該方法包括:接收到待處理字符集;逐一從預先存儲的字符集類別集合中選取字符集類別;基于所選取字符集類別所對應的編碼規則對所述待處理字符集進行解碼;記錄解碼成功后的解碼結果;對所述字符集類別集合中所有解碼成功后的字符集類別所對應的解碼結果進行分詞,獲取分詞結果;基于所述分詞結果確定所述待處理字符集所屬的目標字符集類別;可見,本發明基于分詞來確定待處理字符集所屬的目標字符集類別的方式為語義檢測方式,與現有技術中采用語法檢測的方式相比,更為準確,提高了檢測字符集類別的成功率。
技術領域
本發明涉及編碼解碼技術領域,更具體的說是涉及一種字符集檢測方法和裝置
背景技術
字符是各種文字和符號的總稱,而字符集是多個字符的集合。在計算機領域,字符集的種類有很多,如ASCII字符集、GB2312字符集、UTF-8字符集、GBK字符集等等。由于不同種類的字符集所對應的編碼規則不盡相同,因此,當系統收到待處理字符集時,需先確定待處理字符集所屬類別,以基于所屬類別進行后續操作,如基于所述待處理字符集所屬類別所對應的編碼規則對待處理字符集進行解碼,顯示解碼后的內容。其中,當接收到待處理字符集中未標明有其所屬的字符集種類時,系統需要檢測待處理字符集所屬字符集類別。
在現有技術中,對待處理字符集所屬字符集類別進行檢測具體是基于字符集編碼規則的方式進行的,即通過不同字符集的編碼規則進行語法檢測。在這種方式下,如果待處理字符集符合至少兩種字符集類別的編碼規則,系統并不能確定出待處理字符集真正所屬的字符集類別,這種情況下,很容易出現檢測錯誤的情況。如,待處理字符集為采用UTF-8字符集進行編碼的字符集,而系統檢測出的待處理字符集所屬的字符集類別為GBK字符集,那么在利用GBK字符集的編碼規則對待處理字符集進行解碼時,則會出現亂碼現象,顯然系統檢測出錯。
因此,如何提高檢測待處理字符集所屬字符集類別的成功率成為亟待克服的技術難題。
發明內容
有鑒于此,本發明提供一種字符集檢測方法和裝置,以提高檢測待處理字符集所屬字符集類別的正確率。
為實現上述目的,本發明提供如下技術方案:
一種字符集檢測方法,其特征在于,包括:
接收到待處理字符集;
逐一從預先存儲的字符集類別集合中選取字符集類別;
基于所選取字符集類別所對應的編碼規則對所述待處理字符集進行解碼;
記錄解碼成功后的解碼結果;
對所述字符集類別集合中所有解碼成功后的字符集類別所對應的解碼結果進行分詞,獲取分詞結果;
基于所述分詞結果確定所述待處理字符集所屬的目標字符集類別。
優選的,所述基于所述分詞結果確定所述待處理字符集所屬的目標字符集類別,包括:
統計所述分詞結果中可分詞片段的字符數以及解碼后的總字符數;
計算所述可分詞片段的字符數與所述解碼后的總字符數的比值,生成可分詞比;
確定與所述可分詞比最大的字符集類別為所述待處理字符集所屬的目標字符集類別。
優選的,所述基于所述分詞結果確定所述待處理字符集所屬的目標字符集類別,包括:
統計所述分詞結果中可分詞片段的字符數;
確定與所述可分詞片段的字符數最大的字符集類別為所述待處理字符集所屬的目標字符集類別。
優選的,所述對所述字符集類別集合中所有解碼成功后的字符集類別所對應的解碼結果進行分詞,獲取分詞結果,具體為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市茁壯網絡股份有限公司,未經深圳市茁壯網絡股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610096192.X/2.html,轉載請聲明來源鉆瓜專利網。





