[發(fā)明專利]文字檢索方法及文字檢索裝置有效
| 申請?zhí)枺?/td> | 201611225709.7 | 申請日: | 2016-12-27 |
| 公開(公告)號: | CN106649764B | 公開(公告)日: | 2020-04-17 |
| 發(fā)明(設(shè)計)人: | 王曉健;江世盛 | 申請(專利權(quán))人: | 北京漢王數(shù)字科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33 |
| 代理公司: | 北京瑞盟知識產(chǎn)權(quán)代理有限公司 11300 | 代理人: | 劉昕;謝玉斌 |
| 地址: | 100093 北京市海*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文字 檢索 方法 裝置 | ||
本發(fā)明涉及文字檢索方法及文字檢索裝置,該文字檢索方法包括以下步驟:識別用戶打開的電子文檔中的表意文字描述序列;將所識別的表意文字描述序列轉(zhuǎn)換為擴展表意文字描述序列,并基于所述擴展表意文字描述序列創(chuàng)建擴展表意文字描述序列庫,其中,所述擴展表意文字描述序列由二元表意文字描述符和基本部件構(gòu)成;判斷所輸入的待檢索文字是否為表意文字描述序列,其中,當所述待檢索文字為表意文字描述序列時,將所述待檢索文字轉(zhuǎn)換為擴展表意文字描述序列,并在所述擴展表意文字描述序列庫中進行檢索;當所述待檢索文字不是表意文字描述序列時,在所述電子文檔中檢索所述待檢索文字。
技術(shù)領(lǐng)域
本發(fā)明涉及文字信息處理技術(shù),尤其涉及一種能夠?qū)y(tǒng)一表意文字進行檢索的文字檢索方法及文字檢索裝置。
背景技術(shù)
隨著計算機技術(shù)的發(fā)展,為實現(xiàn)計算機跨語言、跨平臺的文本轉(zhuǎn)換及處理,國際組織制定并公布了Unicode(萬國碼、統(tǒng)一碼)編碼系統(tǒng),其中包括中日韓統(tǒng)一表意文字(CJKUnited Ideographs)。
然而,漢字的數(shù)量龐大,結(jié)構(gòu)復(fù)雜,盡管Unicode標準已經(jīng)包括了70000多個漢字符號,但是仍然有許多生僻字未被包括進來。這些未被編碼的漢字可稱其為“集外字”。雖然Unicode標準持續(xù)不斷的對集外字進行分類編碼,分配碼位,但是漢字是一個開放的集合,可以預(yù)計根本不可能也沒有必要窮盡所有的漢字。Unicode標準也認識到單純依靠擴大收字量無法從根本上解決CJK(中日韓)文字的編碼問題。
有鑒于此,Unicode標準定義了表意文字描述序列IDS(Ideographic DescriptionCharacters Sequence)和表意文字描述符IDC(Ideographic Description Characters)。表意文字描述的算法依據(jù)是:理論上所有的漢字都可以拆分為更小的部件,而這些部件本身是表意文字。所以通過定義描述文字結(jié)構(gòu)的表意文字描述符IDC,再配合已有編碼的文字,即可描述絕大多數(shù)未被編碼的集外字。
在現(xiàn)有規(guī)則下,表意文字描述符IDC共有12個,對應(yīng)描述12種文字結(jié)構(gòu),例如,左右結(jié)構(gòu)、上下結(jié)構(gòu)、左中右結(jié)構(gòu)、上中下結(jié)構(gòu)、全包圍結(jié)構(gòu)、上三包圍結(jié)構(gòu)、下三包圍結(jié)構(gòu)、左三包圍結(jié)構(gòu)、左上包圍結(jié)構(gòu)、右上包圍結(jié)構(gòu)、左下包圍結(jié)構(gòu)合交叉結(jié)構(gòu),碼位區(qū)間從U+2FF0到U+2FFB,如表1所示。
表1.IDC編碼表
表意文字描述序列IDS由一系列的IDC描述符以及已有編碼的文字組成,來描述未編碼的集外字。IDS的語法比較簡單,只要求三元IDC(U+2FF2和U+2FF3)后面必須有3個IDS,二元IDC(U+2FF2和U+2FF3以外的其他IDC)后面必須有2個IDS,IDS中除了IDC以外必須是一元CJK字符。IDS還有2個長度限制,即:①序列長度不可超過16個Unicode編碼;②如果沒有表意文字描述符作為間隔,構(gòu)成序列的部件或者偏旁不能超過6個。
圖1是表意文字序列的示例。
如圖1所示,以字為例,其表意文字描述序列由兩個IDC(2FF1)、(2FF0)以及已有編碼的文字“鳥”(9CE5)、“龜”(9F9C)以及“灬”(706C)構(gòu)成。
IDS為集外字的描述提供了一種標準的文本交換機制。在制作電子文檔,尤其是在古籍電子化的過程中,可對文檔中的集外字采用IDS描述,同時收錄該集外字的摳圖。當使用閱讀軟件閱讀該電子文檔時,讀者可看到集外字的摳圖,又可在文本搜索框中輸入IDS描述,來檢索集外字。
然而,使用IDS描述集外字存在歧義性,即一個集外字可能用多種IDS來表示。這是因為IDS本身可以繼續(xù)被分解。
例如,參照圖2,圖2是集外字的多種IDS描述的示例。
如圖2所示,所例舉的集外字有3種不同的IDS描述。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京漢王數(shù)字科技有限公司,未經(jīng)北京漢王數(shù)字科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611225709.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





