[發明專利]生僻字的編碼擴展方法、裝置、存儲介質及電子設備有效
| 申請號: | 202010335864.4 | 申請日: | 2020-04-25 |
| 公開(公告)號: | CN111444680B | 公開(公告)日: | 2023-05-16 |
| 發明(設計)人: | 馬良有;鐘志堅;孫炎森;徐曉劍 | 申請(專利權)人: | 中信銀行股份有限公司 |
| 主分類號: | G06F40/126 | 分類號: | G06F40/126;G06F40/151;G06F40/103 |
| 代理公司: | 北京市蘭臺律師事務所 11354 | 代理人: | 張峰 |
| 地址: | 100010 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 生僻字 編碼 擴展 方法 裝置 存儲 介質 電子設備 | ||
1.一種生僻字的編碼擴展方法,其特征在于,包括:
獲取第一輸入信息、當前支持的第一編碼以及待轉換的第二編碼,其中,第一編碼為大字符集編碼,第二編碼為小字符集編碼;
將所述第一輸入信息轉換為第一編碼的字節信息;
若所述字節信息中包括單字節字符,則判斷所述單字節字符是否為第一轉義字符,其中,所述第一轉義字符包括轉義開始字符;
若所述單字節字符是所述第一轉義字符,則按照預設方式對所述第一轉義字符進行轉換;
若所述單字節字符不是所述第一轉義字符,則按照第一編碼與第二編碼的標準進行轉換;
判斷所述字節信息中是否包括生僻字的字節編碼序列;
若所述字節信息中包括所述生僻字的字節編碼序列,則將所述生僻字的字節編碼序列轉義為與第一編碼以及第二編碼約定格式對應的轉義序列進行表示;
當第二編碼為EBCDIC時,所述與第一編碼以及第二編碼約定格式對應的轉義序列包括:
與所述生僻字的Unicode編碼對應的4字節代理對,其中,所述4字節代理對包括第1字節b1、第2字節b2、第3字節b3以及第4字節b4;
第1字節b1=m1+0xC0;
第2字節b2=m2+0x10;
第3字節b3=m3+0x80;
第4字節b4=n3+0x10;
若U=所述生僻字的16進制Unicode編碼值,則m1=U/16384取整,n1=U%16384,m2=n1/1024取整,n2=n1%1024,m3=n2/16取整,n3=n2%16。
2.根據權利要求1所述的編碼擴展方法,其特征在于,判斷所述字節信息中是否包括生僻字的字節編碼序列包括:
當第一編碼為GB18030編碼時,若字節信息中存在合法的4字節編碼序列表示的字符,則判斷為包括生僻字的字節編碼序列。
3.根據權利要求1所述的編碼擴展方法,其特征在于,判斷所述字節信息中是否包括生僻字的字節編碼序列包括:
當第一編碼為UTF8時,若字節信息中存在合法的2-4字節編碼序列表示的字符,則獲取該字節編碼序列表示字符的Unicode編碼;
根據獲取的Unicode編碼查表或計算得到該字符的GB18030編碼;
若為合法的GB18030編碼的4字節編碼序列表示的字符,則判斷為包括生僻字的字節編碼序列。
4.根據權利要求1所述的編碼擴展方法,其特征在于,所述與第一編碼以及第二編碼約定格式對應的轉義序列包括:
轉義開始字符的字節編碼序列以及固定長度的與所述生僻字的字節編碼序列對應的16進制Unicode編碼的字節編碼序列。
5.根據權利要求1所述的編碼擴展方法,其特征在于,所述與第一編碼以及第二編碼約定格式對應的轉義序列包括:
轉義開始字符的字節編碼序列、與所述生僻字的字節編碼序列對應的16進制Unicode編碼的字節編碼序列以及轉義結束的字符的字節編碼序列,其中所述生僻字的16進制Unicode編碼的字節編碼序列為變長。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中信銀行股份有限公司,未經中信銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010335864.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種線路板加工用燈珠貼片機
- 下一篇:一種高效水利施工清淤設備





