[發明專利]字符編碼識別方法及裝置有效
| 申請號: | 201810050150.1 | 申請日: | 2018-01-18 |
| 公開(公告)號: | CN108197087B | 公開(公告)日: | 2021-11-16 |
| 發明(設計)人: | 王占一 | 申請(專利權)人: | 奇安信科技集團股份有限公司 |
| 主分類號: | G06F40/126 | 分類號: | G06F40/126 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王瑩;李相雨 |
| 地址: | 100088 北京市西城區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 字符 編碼 識別 方法 裝置 | ||
本發明提供一種字符編碼識別方法及裝置,該方法包括:獲取待識別文本;根據所述待識別文本和預設的編碼方式識別模型獲得符合所述待識別文本的編碼方式;根據獲得的所述編碼方式對所述待識別文件進行解碼,獲得解碼結果。本發明實施例提供一種字符編碼識別方法及裝置,通過對獲取到的待識別文本,根據待識別文本和編碼方式識別模型獲得待識別文本對應于預設的各個編碼方式的符合概率值,從符合概率值中確定符合待識別文本的編碼方式,然后進行解碼獲得解碼結果,從而達到無需人為設定編碼方式及匹配編碼方式所需的特征序列,減少了工作量,靈活性強。
技術領域
本發明實施例涉及信息處理技術領域,尤其涉及一種字符編碼識別方法及裝置。
背景技術
在計算機信息技術領域,字符編碼是一項基本技術。字符編碼也稱字集碼,是把字符集中的字符編碼為指定集合中某一對象,以便文本在計算機中存儲和通過通信網絡的傳遞。計算機中儲存的信息都是用二進制數表示的,而要想讓用戶看得懂,必須按照某一字符集通過字符編碼的方式進行轉換。常見的編碼方式主要有UTF-8、GB2312、GBK、BIG5等。通常,不同語種有其相對應的適用編碼,如ISO-8859-1主要用于表示拉丁字符,GBK、GB2312常用于簡體中文,而BIG5常用于繁體中文。
在計算機存儲和展示信息時,由于信息缺失或被修改有時無法獲取正確的編碼方式,導致無法正常應用。因此,識別字符編碼的方法和系統非常重要。常用的識別方法有三種:(1)根據編碼范圍確定,每種編碼有自己的使用范圍,但當存在大量的編碼重合點時這種方法將會失效。(2)使用特征匹配,用詞典中的關鍵詞或人工定義的特征去匹配當前信息,一旦匹配成功即可確定。但如果匹配不成功則無法確定。(3)字符分布法,事先建立字符的概率模型,根據模型計算當前字符分布的概率來判斷歸屬情況。這種方法對于有特定詞語使用習慣、篇幅過短的編碼信息效果有限。
發明內容
本發明實施例提供一種字符編碼識別方法及裝置,用于解決現有技術中編碼方式依賴人工設定,靈活性差的問題。
第一方面,本發明實施例提供一種字符編碼識別方法,包括:
獲取待識別文本;
根據所述待識別文本和預設的編碼方式識別模型獲得符合所述待識別文本的編碼方式;
根據獲得的所述編碼方式對所述待識別文件進行解碼,獲得解碼結果。
可選地,所述根據所述待識別文本和預設的編碼方式識別模型獲得符合所述待識別文本的編碼方式,包括:
將所述待識別文本發送到所述編碼方式識別模型中進行計算獲得所述待識別文本對應于預設的各個編碼方式的符合概率值;
根據所述符合概率值確定符合所述待識別文本的編碼方式。
可選地,所述根據所述待識別文本和預設的編碼方式識別模型獲得符合所述待識別文本的編碼方式,包括:
從所述待識別文本中選取多個文本段;
將每個文本段發送到所述編碼方式識別模型中進行計算獲得各個文本段對應于預設的各個編碼方式的符合概率值,根據所述符合概率值確定符合各個文本段的編碼方式;
根據各個文本段的編碼方式確定所述待識別文本的編碼方式。
可選地,根據所述符合概率值確定符合所述待識別文本的編碼方式,包括:根據所述符合概率值中選取最大概率值;將所述最大概率值對應的編碼方式作為符合所述待識別文本的編碼方式。
第二方面,本發明實施例提供一種字符編碼識別裝置,包括:
獲取模塊,用于獲取待識別文本;
處理模塊,用于根據所述待識別文本和預設的編碼方式識別模型獲得符合所述待識別文本的編碼方式;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于奇安信科技集團股份有限公司,未經奇安信科技集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810050150.1/2.html,轉載請聲明來源鉆瓜專利網。





