[發明專利]基于多文種文檔圖像識別的跨文種理解方法有效

申請號：	201210007729.2	申請日：	2012-01-11
公開（公告）號：	CN102609408A	公開（公告）日：	2012-07-25
發明（設計）人：	彭良瑞;丁曉青;蘇冰;劉長松;方馳;文迪	申請（專利權）人：	清華大學
主分類號：	G06F17/28	分類號：	G06F17/28;G06F17/27;G06K9/20
代理公司：	北京路浩知識產權代理有限公司 11002	代理人：	韓國勝;王瑩
地址：	100084 北京市***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于多文種文檔圖像識別跨文種理解方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于多文種文檔圖像識別的跨文種理解方法，其特征在于，包括以下步驟：

獲取源文種的文檔掃描圖像，通過多文種文檔圖像識別途徑對所述文檔掃描圖像進行處理，以得到源文種識別文本；

對所述源文種識別文本進行分句處理；

利用基于詞的或基于句子的文本翻譯理解模塊對分句處理后的源文種識別文本進行轉換，獲得目標文種文本；

對所述文檔掃描圖像、源文種識別文本和目標文種文本進行顯示輸出。

2.如權利要求1所述的基于多文種文檔圖像識別的跨文種理解方法，其特征在于，所述多文種文檔圖像識別途徑具體包括：將獲取的所述文檔掃描圖像輸入多文種文檔圖像識別模塊中，對所述文檔掃描圖像依次進行版面分析、文本行切分、字符切分和識別，得到所述文檔掃描圖像的文本代碼。

3.如權利要求1所述的基于多文種文檔圖像識別的跨文種理解方法，其特征在于，所述分句處理具體包括：對所述源文種識別文本進行斷句和整理，使得原版式上換行斷開的句子合并，重新從標點符號處斷開文本。

4.如權利要求1所述的基于多文種文檔圖像識別的跨文種理解方法，其特征在于，基于詞的源文種識別文本轉換具體包括：記源文種為A，目標文種為B，根據B的檢索詞或指定檢索詞組，從所述文本翻譯理解模塊的文種A-B雙語對照詞典知識庫中查找對應A的詞條或詞條組，在所述源文種識別文本中匹配查詢，并記錄匹配結果。

5.如權利要求4所述的基于多文種文檔圖像識別的跨文種理解方法，其特征在于，所述顯示輸出具體包括：將所述匹配結果在所述源文種識別文本中高亮顯示，同時將A和B雙語對照的詞條內容列表顯示出來；或者，將所述匹配結果在所述文檔掃描圖像上標記顯示，同時將A和B雙語對照的詞條內容列表顯示出來。

6.如權利要求1所述的基于多文種文檔圖像識別的跨文種理解方法，其特征在于，基于句子的源文種識別文本轉換具體包括：采用基于句子的翻譯模塊，實現句子的翻譯轉換。

7.如權利要求6所述的基于多文種文檔圖像識別的跨文種理解方法，其特征在于，所述顯示輸出具體包括：將翻譯轉換后的目標文種文本與源文種識別文本按句交替顯示。

8.如權利要求7所述的基于多文種文檔圖像識別的跨文種理解方法，其特征在于，所述顯示輸出具體還包括：目標文種文本與源文種識別文本按句交替顯示時，在目標文種文本中選中某句時，將該句在所述文檔掃描圖像上標記顯示。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于清華大學，未經清華大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201210007729.2/1.html，轉載請聲明來源鉆瓜專利網。

專利分類

專利文獻下載