[發明專利]一種語言處理方法、裝置、設備及計算機可讀存儲介質在審
| 申請號: | 202110241344.1 | 申請日: | 2021-03-04 |
| 公開(公告)號: | CN113705162A | 公開(公告)日: | 2021-11-26 |
| 發明(設計)人: | 李應弟;黃珊 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/126 | 分類號: | G06F40/126;G06F40/253;G06K9/20 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 熊永強;賈允 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語言 處理 方法 裝置 設備 計算機 可讀 存儲 介質 | ||
本申請公開了一種語言處理方法、裝置、設備及計算機可讀存儲介質,所述方法包括:獲取目標文本的至少兩個基本區編碼,所述基本區編碼與至少兩種字型編碼關聯;確定所述至少兩個基本區編碼中相鄰兩個基本區編碼的組合關系,所述組合關系表征相鄰兩個基本區編碼是否對應相同的目標字型編碼;基于所述組合關系,從所述各個基本區編碼關聯的至少兩種字型編碼中確定所述各個基本區編碼對應的目標字型編碼;獲取所述目標字型編碼對應的目標字符;基于所述目標字符,顯示所述目標文本。利用本申請實施例提供的技術方案至少可以實現目標文本的字型的正確顯示。
技術領域
本申請涉及計算機技術領域,尤其涉及一種語言處理方法、裝置、設備及計算機可讀存儲介質。
背景技術
現有的光學字符識別技術(Optical Character Recognition,OCR)和輸入法能夠對包括黏著語在內的多種語言進行處理。由于黏著語包括多個基礎字母,每個基礎字母可對應至少兩種不同的字型,在詞語中呈現的字型基于基礎字母出現在詞語中的位置、或者基礎字母間的組合形式等因素而定,在對黏著語的處理過程中,現有的OCR和輸入法在顯示黏著語的文本形式時,無法對黏著語的字型進行自動選型,所顯示的黏著語字型正確率往往無法滿足期望。
發明內容
本申請提供了一種語言處理方法、裝置、設備及計算機可讀存儲介質,至少能夠解決無法對黏著語的字型進行自動選型、無法正確顯示黏著語的字型的技術問題。
一方面,本申請提供了一種語言處理方法,所述方法包括:
獲取目標文本的至少兩個基本區編碼,所述基本區編碼與至少兩種字型編碼關聯;
確定所述至少兩個基本區編碼中相鄰兩個基本區編碼的組合關系,所述組合關系表征相鄰兩個基本區編碼是否對應相同的目標字型編碼;
基于所述組合關系,從所述各個基本區編碼關聯的至少兩種字型編碼中確定所述各個基本區編碼對應的目標字型編碼;
獲取所述目標字型編碼對應的目標字符;
基于所述目標字符,顯示所述目標文本。
另一方面提供了一種語言處理裝置,所述裝置包括:
第一獲取模塊,獲取目標文本的至少兩個基本區編碼,所述基本區編碼與至少兩種字型編碼關聯;
第一確定模塊,用于確定所述至少兩個基本區編碼中相鄰兩個基本區編碼的組合關系,所述組合關系表征相鄰兩個基本區編碼是否對應相同的目標字型編碼;
第二確定模塊,用于基于所述組合關系,從所述各個基本區編碼關聯的至少兩種字型編碼中確定所述各個基本區編碼對應的目標字型編碼;
第二獲取模塊,用于獲取所述目標字型編碼對應的目標字符;
顯示模塊,用于基于所述目標字符,顯示所述目標文本。
另一方面提供了一種語言處理設備,所述設備包括處理器和存儲器,所述存儲器中存儲有至少一條指令或至少一段程序、所述至少一條指令或所述至少一段程序由所述處理器加載并執行以實現如上所述的語言處理方法。
另一方面提供了一種計算機可讀存儲介質,所述存儲介質中存儲有至少一條指令、至少一段程序、代碼集或指令集,所述至少一條指令、所述至少一段程序、所述代碼集或指令集由處理器加載并執行以實現如上述的語言處理方法。
本申請提供的語言處理方法、裝置、設備及計算機可讀存儲介質,具有如下技術效果:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110241344.1/2.html,轉載請聲明來源鉆瓜專利網。





