[發(fā)明專利]古籍文檔檢索系統(tǒng)中檢索詞在古籍快照圖片上進(jìn)行高亮標(biāo)識的方法無效
| 申請?zhí)枺?/td> | 200610086873.4 | 申請日: | 2006-06-22 |
| 公開(公告)號: | CN101093545A | 公開(公告)日: | 2007-12-26 |
| 發(fā)明(設(shè)計(jì))人: | 馮建康;王宏源;趙鋒 | 申請(專利權(quán))人: | 王宏源 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20;G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100020北京市朝陽*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 古籍 文檔 檢索系統(tǒng) 檢索 快照 圖片 進(jìn)行 標(biāo)識 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種古籍文檔檢索系統(tǒng)中檢索字/詞在古籍快照圖片上進(jìn)行高亮標(biāo)識的方法。
背景技術(shù)
信息檢索系統(tǒng)能夠幫助用戶在海量信息中找到自己需要得有用信息。信息積累不僅體現(xiàn)在有不斷有新信息的加入,而且中國幾千年來積累的主要保存在紙質(zhì)上的信息也不斷被電子化。近幾年出現(xiàn)越來越多的對古代紙本知識的電子化信息。這些信息一部分由圖片掃描設(shè)備將古籍掃描,以圖片形式存儲于計(jì)算機(jī)中。通過對古籍電子化處理,既利于對古籍原本的保存,又利于廣大學(xué)者對其進(jìn)行研究。近幾年,大部分古籍電子化系統(tǒng)通過OCR光學(xué)文字辨識或者人工對這些古籍進(jìn)行整理,將其中文字錄入到計(jì)算機(jī)中,形成古籍文本文檔。對古籍文本文檔的錄入,方便了對古籍內(nèi)容的編輯,拷貝,傳輸。同時也實(shí)現(xiàn)了對這些古籍電子化文檔的全文檢索。這更進(jìn)一步方便了古籍研究者對古籍文檔的查閱。
很多學(xué)者在使用含有古籍的數(shù)據(jù)庫時,常常需要查看其對應(yīng)的原始的古籍原始頁面的快照圖片。當(dāng)前的古籍?dāng)?shù)字化檢索系統(tǒng)往往通過用戶的查詢詞匹配到古籍快照的某一頁,然后將該頁古籍圖片返回給檢索用戶。此時用戶往往需要對圖片上的文檔逐字瀏覽,用來找到與自己檢索內(nèi)容相關(guān)的部分。由于古籍原始頁面快照中的內(nèi)容往往并不分段落,也不帶標(biāo)點(diǎn),對今人而言不易閱讀,因此用戶在古籍頁面快照圖片上定位到與自己檢索內(nèi)容相關(guān)的位置時往往比較吃力。在文本檢索系統(tǒng)中,系統(tǒng)會在結(jié)果文本中對出現(xiàn)的用戶檢索詞進(jìn)行高亮標(biāo)識,用以幫助用戶更快定位自己所關(guān)注的內(nèi)容。因此,在古籍圖片瀏覽時也急需一種類似的方法,使檢索系統(tǒng)能夠自動標(biāo)識出用戶檢索字/詞在古籍原始頁面快照圖片上與相關(guān)文字內(nèi)容匹配命中的區(qū)域。
發(fā)明內(nèi)容
鑒于上述分析,本發(fā)明的主要目的是提供一種古籍文檔檢索系統(tǒng)中檢索詞在古籍快照圖片上進(jìn)行高亮標(biāo)識的方法。該方法通過捕捉與記錄古籍原始頁面快照圖片中每個文字字符的位置信息,按照一定順序使其與OCR光學(xué)辨識或者人工錄入文檔的每個錄入字符相對應(yīng)。在檢索時,首先對用戶的檢索字符串進(jìn)行分詞處理,形成分詞結(jié)果字符串。接下來計(jì)算分詞結(jié)果字符串與檢索結(jié)果文檔中相匹配的每個字符的位置,形成匹配位置序列。將這些位置序列作為索引,得出其對應(yīng)的坐標(biāo)序列。在顯示快照圖片時,根據(jù)坐標(biāo)序列在快照圖片上進(jìn)行高亮標(biāo)識,從而達(dá)到將查詢字符串在古籍快照圖片上進(jìn)行高亮標(biāo)識的效果。
該方法的實(shí)現(xiàn)主要包括兩步:第一步完成坐標(biāo)序列的生成;第二步完成查詢字符串在快照圖片上的高亮顯示。
坐標(biāo)序列生成的具體實(shí)現(xiàn)方法是:
A、根據(jù)快照圖片將其中內(nèi)容信息以文本形式錄入計(jì)算機(jī)。
B、以步驟A中字符錄入的順序獲取古籍快照圖片上每個字符的坐標(biāo)信息,將其存入計(jì)算機(jī)。
查詢字符串在快照圖片上的高亮顯示方法是:
A、將查詢字符串進(jìn)行分詞處理,形成分詞結(jié)果字符串。分詞結(jié)果字符串為由詞(包括單個字的詞)組成的序列。
B、讀入要高亮顯示的快照圖片對應(yīng)的文本文檔。計(jì)算分詞結(jié)果字符串中的詞序列中每個詞在文本文檔中存在的位置。形成位置序列。
C、讀入要高亮顯示的快照圖片對應(yīng)的字符坐標(biāo)序列。根據(jù)B步形成的位置序列得到相應(yīng)位置字符在圖片上的坐標(biāo),形成命中坐標(biāo)序列。
D、根據(jù)C步形成的命中坐標(biāo)序列,在顯示圖片時,在圖片上相應(yīng)的坐標(biāo)進(jìn)行標(biāo)識。
本發(fā)明的特點(diǎn):
本發(fā)明通過坐標(biāo)標(biāo)識的方法,使得在古籍檢索系統(tǒng)中,實(shí)現(xiàn)對查詢字符串在古籍原始快照圖片中進(jìn)行高亮標(biāo)識。大大提高了用戶在古籍圖片上查找自己關(guān)注內(nèi)容時的查找速度。
具體實(shí)施方式
本發(fā)明的主要目的是提供一種古籍文檔檢索系統(tǒng)中檢索詞在古籍快照圖片上進(jìn)行高亮標(biāo)識的方法。
具體的實(shí)施方法如下:
1、生成坐標(biāo)序列
A、生成古籍文本記錄。一張古籍頁面快照圖片對應(yīng)一條記錄。古籍文本記錄的信息包括記錄編號、圖片位置、文本內(nèi)容以及與之對應(yīng)的坐標(biāo)信息序列。其中文本內(nèi)容為按照閱讀順序?qū)⒐偶煺丈厦娴奈谋咀址浫胗?jì)算機(jī)后形成的文本。其文本編碼采用Unicode編碼,并且含有四字節(jié)字符,以符合中國古代典籍使用漢字的具體情況。坐標(biāo)序列為文本內(nèi)容中每個字符在圖片中出現(xiàn)時的坐標(biāo)。每個字符的坐標(biāo)為覆蓋字符的最小矩形的坐標(biāo)。包括矩形左上頂點(diǎn)在圖片中的坐標(biāo),與右下頂點(diǎn)在圖片中的坐標(biāo)。該坐標(biāo)序列的順序要與文本內(nèi)容中的字符順序保持一致。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于王宏源,未經(jīng)王宏源許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200610086873.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





