[發(fā)明專利]搜索、識(shí)別和定位墨水中的術(shù)語(yǔ)的方法、裝置、程序和語(yǔ)言有效
| 申請(qǐng)?zhí)枺?/td> | 200680002118.1 | 申請(qǐng)日: | 2006-01-10 |
| 公開(公告)號(hào): | CN101103363A | 公開(公告)日: | 2008-01-09 |
| 發(fā)明(設(shè)計(jì))人: | 皮埃爾-米查爾·拉利埃 | 申請(qǐng)(專利權(quán))人: | 視覺客體公司 |
| 主分類號(hào): | G06K9/22 | 分類號(hào): | G06K9/22;G06F17/30 |
| 代理公司: | 中國(guó)國(guó)際貿(mào)易促進(jìn)委員會(huì)專利商標(biāo)事務(wù)所 | 代理人: | 李玲 |
| 地址: | 法國(guó)*** | 國(guó)省代碼: | 法國(guó);FR |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 搜索 識(shí)別 定位 墨水 中的 術(shù)語(yǔ) 方法 裝置 程序 語(yǔ)言 | ||
技術(shù)領(lǐng)域
本發(fā)明的技術(shù)領(lǐng)域是搜索和識(shí)別以數(shù)字格式存儲(chǔ)的文件中的術(shù)語(yǔ)。
尤其是,本發(fā)明涉及搜索文件中的信息,所述文件稱為墨水文件,即,手寫準(zhǔn)備且預(yù)先以這種格式直接存儲(chǔ)在例如文件信息系統(tǒng)中。本發(fā)明還能夠應(yīng)用于其他類型的文件,例如口述文件。
背景技術(shù)
由于桌上型計(jì)算機(jī)以及所有其他類型的大部分可移動(dòng)的終端的計(jì)算和/或備份能力的顯著提高,所述終端例如為個(gè)人數(shù)字助理(或PDA)、筆記本計(jì)算機(jī)、移動(dòng)電話等,在不需要預(yù)先將數(shù)據(jù)和/或文件轉(zhuǎn)換成任何標(biāo)準(zhǔn)的計(jì)算機(jī)格式的情況下,已經(jīng)變得能夠以它們?cè)际謱懜袷街苯荧@取和存儲(chǔ)數(shù)據(jù)和/或文件。
然而,一旦已經(jīng)獲取和存儲(chǔ)了這種墨水文件,處理墨水文件所包含的數(shù)據(jù)和/或手寫信息要求使用特定和復(fù)雜的工具。這些工具通常能夠使存儲(chǔ)的數(shù)據(jù)或信息轉(zhuǎn)換成屬于詞典(或?qū)iT詞匯)的元素,且能夠在墨水文件中搜索所轉(zhuǎn)換的詞、短語(yǔ)或注釋。
現(xiàn)有技術(shù)的解決方案
由此,使得能夠?qū)⑿蛄姓Z(yǔ)言(sequential?language),典型地為語(yǔ)音或筆跡,轉(zhuǎn)換成數(shù)據(jù)處理系統(tǒng)能夠理解的元素串的系統(tǒng)是已知的,所述元素以ASCII,ISO-Latin-1或UNICODE類型的格式被編碼。
現(xiàn)有技術(shù)中的系統(tǒng)中,能夠?qū)⒁运鼈冊(cè)际謱懜袷捷斎氲哪募苯觽浞莸嚼缬?jì)算機(jī)硬盤驅(qū)動(dòng)器上的系統(tǒng)也是已知的。
在一個(gè)或多個(gè)所存儲(chǔ)的墨水文件中搜索數(shù)據(jù)和/或信息要求將包含在請(qǐng)求中的正在被搜索的數(shù)據(jù)與來自所存儲(chǔ)的墨水文件的數(shù)據(jù)進(jìn)行比較的能力。在這方面,先前已經(jīng)提出了幾種解決方案:
-當(dāng)請(qǐng)求也以手寫格式輸入時(shí),將存儲(chǔ)的墨水?dāng)?shù)據(jù)與請(qǐng)求的內(nèi)容進(jìn)行比較;
-將存儲(chǔ)的墨水?dāng)?shù)據(jù)與以文本格式(例如ASCII)輸入的并轉(zhuǎn)換成手寫體的請(qǐng)求的內(nèi)容進(jìn)行比較;
-將轉(zhuǎn)換成文本格式(例如ASCII)的所存儲(chǔ)的墨水?dāng)?shù)據(jù)與本身為文本格式的請(qǐng)求的內(nèi)容進(jìn)行比較。
當(dāng)然,前兩種方案在它們對(duì)處理器(CPU)和內(nèi)存施加的負(fù)載方面而言是繁重和苛求的。它們不能夠在合理的時(shí)間段內(nèi)進(jìn)行有效的處理。第三種方案通常在詞典的協(xié)助下采取到字符的預(yù)先轉(zhuǎn)換。由此,由于轉(zhuǎn)換限于一種語(yǔ)言且限于實(shí)際存在于詞典的術(shù)語(yǔ),因此帶來了偏差。
搜索處理的一個(gè)困難主要在于在存儲(chǔ)的文件中搜索的數(shù)據(jù)與在查詢語(yǔ)言中使用的數(shù)據(jù)的屬性并不總是相同。
因此,重要的是,所利用的技術(shù)能夠描繪出這種不同種類的數(shù)據(jù)之間的關(guān)聯(lián),所述關(guān)聯(lián)包括與搜索功能相關(guān),所述搜索功能是用于在所存儲(chǔ)的墨水文件的一部分或全部墨水文件中識(shí)別所搜索的數(shù)據(jù)的功能。
這種識(shí)別系統(tǒng)是已知的,所述識(shí)別系統(tǒng)通?;趶?fù)雜的計(jì)算機(jī)處理,另一方面要求顯著的處理能力,所述能力在處理器(CPU)和內(nèi)存負(fù)載方面是高要求的。
因此,現(xiàn)有技術(shù)的大多數(shù)識(shí)別系統(tǒng)使用一個(gè)或多個(gè)處理,其中包括:
-墨水?dāng)?shù)據(jù)到字符級(jí)別格式(ASCII等)的轉(zhuǎn)換,所述字符級(jí)別格式能夠由計(jì)算機(jī)終端直接解釋;
-字符格式的數(shù)據(jù)和通常采取詞典形式的數(shù)據(jù)模型之間的比較;
由此,現(xiàn)有技術(shù)的這些識(shí)別系統(tǒng)的第一個(gè)缺點(diǎn),涉及在其包含的詞的數(shù)量和含義方面,使用具有通常固定和有限的內(nèi)容的詞典的必要性。
另外,這種詞典的使用在搜索結(jié)果方面需承擔(dān)顯著的限制,這個(gè)結(jié)果必然依賴于詞典的語(yǔ)言、全面性和范圍。為此,現(xiàn)有技術(shù)的識(shí)別技術(shù)至少在某些情況下返回普通的結(jié)果,且它們不能夠搜索固有名稱、公司名稱、或任何其他已經(jīng)被寫入墨水文件中、在搜索中被考慮但沒有出現(xiàn)在詞典中的字符或符號(hào)串。
另外,在識(shí)別階段使用詞典通常在處理請(qǐng)求和將搜索結(jié)果返回給用戶的過程中產(chǎn)生相對(duì)長(zhǎng)的響應(yīng)時(shí)間。
為了克服上述缺點(diǎn),現(xiàn)有技術(shù)的某些其他技術(shù)基于使用索引方法,索引方法的主要作用是預(yù)組織其中必須應(yīng)用搜索的墨水文件中包含的數(shù)據(jù)和/或信息。然而,另一方面,在搜索環(huán)境中使用這種索引方法要求墨水文件的內(nèi)容預(yù)先已經(jīng)進(jìn)行了至少部分識(shí)別處理。
為了這個(gè)目的,并且為了減少總的搜索時(shí)間,一些技術(shù)提出了執(zhí)行所存儲(chǔ)的墨水文件的內(nèi)容的初步識(shí)別,然后將這個(gè)識(shí)別的結(jié)果存儲(chǔ)在例如計(jì)算機(jī)或服務(wù)器的硬盤驅(qū)動(dòng)器上,且最后不在所存儲(chǔ)的墨水文件的原始內(nèi)容上而是在執(zhí)行的初步識(shí)別的結(jié)果上進(jìn)行搜索,如美國(guó)專利申請(qǐng)文件No.:US2003101163。
在這些已知的技術(shù)中,在詞級(jí)別排他地執(zhí)行索引,且置信度評(píng)分被分配給每個(gè)詞,以便評(píng)估搜索的詞與索引的詞中的一個(gè)詞對(duì)應(yīng)或不對(duì)應(yīng)的概率。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于視覺客體公司,未經(jīng)視覺客體公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200680002118.1/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種雷擊浪涌防護(hù)電路保護(hù)裝置
- 下一篇:治療胃腸道病癥的劑型
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序





