[發(fā)明專(zhuān)利]用于表意字符分析的方法和介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 201580084629.1 | 申請(qǐng)日: | 2015-09-30 |
| 公開(kāi)(公告)號(hào): | CN109074355B | 公開(kāi)(公告)日: | 2023-03-07 |
| 發(fā)明(設(shè)計(jì))人: | 陳超;黃坤悟;戴宏濤;劉靜靜 | 申請(qǐng)(專(zhuān)利權(quán))人: | 開(kāi)文公司 |
| 主分類(lèi)號(hào): | G06F16/28 | 分類(lèi)號(hào): | G06F16/28;G06F16/22;G06F16/242;G06F16/2457 |
| 代理公司: | 中國(guó)貿(mào)促會(huì)專(zhuān)利商標(biāo)事務(wù)所有限公司 11038 | 代理人: | 曾琳 |
| 地址: | 加拿大*** | 國(guó)省代碼: | 暫無(wú)信息 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 表意 字符 分析 方法 介質(zhì) | ||
表意字符分析包括:將原始表意字符劃分為筆畫(huà),并且每個(gè)筆畫(huà)映射到對(duì)應(yīng)的筆畫(huà)標(biāo)識(shí)符(id)以創(chuàng)建包括筆畫(huà)標(biāo)識(shí)符的原始筆畫(huà)id序列。選擇具有距原始筆畫(huà)id序列處于閾值距離內(nèi)的候選筆畫(huà)id序列的候選表意字符。一個(gè)或多個(gè)實(shí)施例可以通過(guò)在搜索短語(yǔ)中用候選表意字符取代原始表意字符來(lái)創(chuàng)建新短語(yǔ)。一個(gè)或多個(gè)實(shí)施例使用搜索短語(yǔ)和新短語(yǔ)來(lái)執(zhí)行搜索以獲得結(jié)果,并且呈現(xiàn)該結(jié)果。一個(gè)或多個(gè)實(shí)施例可以用候選表意字符取代經(jīng)字符辨認(rèn)的文檔中的原始表意字符,并且存儲(chǔ)經(jīng)字符辨認(rèn)的文檔。
技術(shù)領(lǐng)域
背景技術(shù)
光學(xué)字符辨認(rèn)(OCR)是從圖像識(shí)別字符的過(guò)程。換句話說(shuō),OCR 將字符的圖像轉(zhuǎn)換為機(jī)器編碼字符。OCR可以例如在傳入圖像是掃描圖像時(shí)或者在用戶(hù)正在使用指點(diǎn)裝置在電子裝置中手寫(xiě)字符(例如,使用鐵筆和采用軟件應(yīng)用的便條)時(shí)被執(zhí)行。因?yàn)镺CR取決于圖像的清晰度、字符和背景的清晰度、字體和/或筆跡以及其他因素,所以 OCR正確地識(shí)別字符可能具有挑戰(zhàn)。
發(fā)明內(nèi)容
總的來(lái)說(shuō),在一個(gè)方面,一個(gè)或多個(gè)實(shí)施例涉及一種用于表意字符分析的方法和非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)。表意字符分析包括:將原始表意字符劃分為筆畫(huà),并且將每個(gè)筆畫(huà)映射到對(duì)應(yīng)的筆畫(huà)標(biāo)識(shí)符 (id)以創(chuàng)建包括筆畫(huà)標(biāo)識(shí)符的原始筆畫(huà)id序列。選擇具有距原始筆畫(huà)id序列處于閾值距離內(nèi)的候選筆畫(huà)id序列的候選表意字符,并且通過(guò)在搜索短語(yǔ)中用候選表意字符取代原始表意字符來(lái)創(chuàng)建新短語(yǔ)。一個(gè)或多個(gè)實(shí)施例使用搜索短語(yǔ)和新短語(yǔ)來(lái)執(zhí)行搜索以獲得結(jié)果,并且呈現(xiàn)結(jié)果。
總的來(lái)說(shuō),在一個(gè)方面,一個(gè)或多個(gè)實(shí)施例涉及一種用于表意字符分析的方法。該方法包括:將原始表意字符劃分為筆畫(huà),并且將每個(gè)筆畫(huà)映射到筆畫(huà)id以創(chuàng)建包括筆畫(huà)標(biāo)識(shí)符的原始筆畫(huà)id序列。具有距原始筆畫(huà)id序列處于閾值距離內(nèi)的候選筆畫(huà)id序列的候選表意字符被選擇,并且取代經(jīng)字符辨認(rèn)的文檔中的原始表意字符。存儲(chǔ)經(jīng)字符辨認(rèn)的文檔。
本技術(shù)的其他方面從以下描述和所附權(quán)利要求將是清楚的。
附圖說(shuō)明
圖1示出根據(jù)本技術(shù)的一個(gè)或多個(gè)實(shí)施例的系統(tǒng)的示意圖。
圖2、3和4示出根據(jù)本技術(shù)的一個(gè)或多個(gè)實(shí)施例的流程圖。
圖5.1、5.2和5.3示出根據(jù)本技術(shù)的一個(gè)或多個(gè)實(shí)施例的例子。
圖6示出根據(jù)本技術(shù)的一個(gè)或多個(gè)實(shí)施例的計(jì)算系統(tǒng)。
具體實(shí)施方式
現(xiàn)在將參照附圖來(lái)描述本技術(shù)的特定實(shí)施例。為了一致性,各圖中的相似的元件用相似的標(biāo)號(hào)表示。
在本技術(shù)的實(shí)施例的以下詳細(xì)描述中,闡述了許多特定細(xì)節(jié)以便提供本技術(shù)的更透徹的理解。然而,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)說(shuō)將清楚的是,可以在沒(méi)有這些特定細(xì)節(jié)的情況下實(shí)施本技術(shù)。在其他情況下,沒(méi)有對(duì)眾所周知的特征進(jìn)行詳細(xì)描述以避免不必要地使描述復(fù)雜。
在整個(gè)本申請(qǐng)中,序數(shù)(例如,第一、第二、第三等)可以用作元件(即,本申請(qǐng)中的任何名詞)的形容詞。序數(shù)的使用并不暗示或創(chuàng)建元件的任何特定排序,也不使任何元件僅限于單個(gè)元件,除非有明確公開(kāi),比如通過(guò)使用術(shù)語(yǔ)“在……之前”、“在……之后”、“單個(gè)”以及其他這樣的術(shù)語(yǔ)明確地公開(kāi)。相反,序數(shù)的使用是區(qū)分元件。舉例來(lái)說(shuō),第一元件不同于第二元件,并且第一元件可以包含多于一個(gè)的元件,并且在元件排序中在第二元件之后(或之前)。
總的來(lái)說(shuō),本技術(shù)的實(shí)施例是針對(duì)執(zhí)行表意字符分析。表意字符是代表想法而不指定讀音的圖形符號(hào)。一些表意字符可以每個(gè)都代表整個(gè)詞語(yǔ)。一些表意字符可以代表詞語(yǔ)的部分。表意字符是表意書(shū)寫(xiě)系統(tǒng)中的字素。表意書(shū)寫(xiě)系統(tǒng)的例子包括中文、日本漢字和其他語(yǔ)言。一個(gè)或多個(gè)實(shí)施例是針對(duì)將表意字符劃分為筆畫(huà)并且將筆畫(huà)轉(zhuǎn)換為筆畫(huà)標(biāo)識(shí)符(id)序列。從筆畫(huà)id序列,可以確定表意字符的可能的變化。在本技術(shù)的一個(gè)或多個(gè)實(shí)施例中,使用可能的變化來(lái)在執(zhí)行OCR 時(shí)正確地識(shí)別表意字符的圖像形式。在本技術(shù)的一個(gè)或多個(gè)實(shí)施例中,使用可能的變化來(lái)搜索具有經(jīng)由OCR錯(cuò)誤地識(shí)別的原始表意字符的文檔。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于開(kāi)文公司,未經(jīng)開(kāi)文公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201580084629.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。





