[發明專利]字符識別設備、方法和程序在審
| 申請號: | 201380050494.8 | 申請日: | 2013-09-19 |
| 公開(公告)號: | CN104685514A | 公開(公告)日: | 2015-06-03 |
| 發明(設計)人: | 岡本昌之;長健太;布目光生 | 申請(專利權)人: | 株式會社東芝 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62 |
| 代理公司: | 上海市華誠律師事務所 31210 | 代理人: | 談晨雯 |
| 地址: | 日本東京都*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 字符 識別 設備 方法 程序 | ||
1.一種字符識別設備,其特征在于,包含:
第一生成單元,被配置成,通過從由用戶創建或由所述用戶使用的文本數據項中的至少一個文本數據項中提取字符,來生成用戶詞典,在所述用戶詞典中將所述字符登記為偏愛的字符;
估算單元,被配置成基于目標文本的布局和標記信息中的至少一個來估算字符之間的第一分離,所述目標文本是用于識別處理的文本,所述標記信息與附加于所述目標文本的標記有關;
第二生成單元,被配置成通過基于所述第一分離估算由筆劃表示的字符段來生成格子框架結構,所述格子框架結構是由所述字符段以及所述字符段之間的路徑形成的并且與包括在提供所述布局的塊中的第一字符串有關;以及
查找單元,被配置成,如果所述格子框架結構包括對應于所述偏愛的字符的路徑,則在所述格子框架結構中查找所述路徑以獲得字符識別結果。
2.如權利要求1所述的設備,其特征在于,進一步地包含分析單元,被配置成基于所述目標文本分析包括線和劃線的圖形,和與包括下劃線和包圍線的標記相關的標記信息項。
3.如權利要求1所述的設備,其特征在于,所述第一生成單元將對于包括在所述文本數據項中的一個文本數據項中的標記頁面中的第二字符串的、和對于在所述文本數據項中的所述一個文本數據項中的標記字符串的偏愛等級設置為高,并且在所述用戶詞典中登記所述第二字符串和所述標記字符串,所述第二字符串是所述第一字符串中的一個,所述偏愛等級指示以偏愛的方式將每個字符識別為所述偏愛的字符所用的等級。
4.如權利要求1所述的設備,其特征在于,進一步地包含收集單元,被配置成通過另一個應用程序收集包括在郵件和由所述用戶創建的文檔中的所述文本數據項。
5.如權利要求4所述的設備,其特征在于,所述收集單元被配置成從指示在所述用戶所屬于的組織、和所述用戶從事的領域中的至少一個中所使用的文檔的特定域文檔中收集所述文本數據項。
6.如權利要求1所述的設備,其特征在于,所述估算單元估算具有基于所述布局被輸入的可能性的字符的類型。
7.如權利要求1所述的設備,其特征在于,所述塊是從包括線、圖形和逐條記載的文本的所述布局中提取的。
8.如權利要求1所述的設備,其特征在于,所述偏愛的字符包括字和作為排列在行的頂部的符號的項目符號字符。
9.如權利要求8所述的設備,其特征在于,所述第一生成單元使用所述標記作為對所述項目符號字符和所述字的第二分離的提示,所述標記包括符號和由所述用戶向所述文本數據項輸入的劃線,所述第二分離是所述第一分離中的一個。
10.一種字符識別方法,其特征在于,包含:
通過從由用戶創建或由所述用戶使用的文本數據項中的至少一個中提取字符,來生成用戶詞典,在所述用戶詞典中,將所述字符登記為偏愛的字符;
基于目標文本的布局和標記信息中的至少一個來估算字符之間的第一分離,所述目標文本是用于識別處理的文本,所述標記信息與附加于所述目標文本的標記有關;
通過基于所述第一分離估算由筆劃表示的字符段來生成格子框架結構,所述格子框架結構是由所述字符段以及所述字符段之間的路徑形成并且與包括在提供所述布局的塊中的第一字符串有關;以及
如果所述格子框架結構包括對應于所述偏愛的字符的所述路徑,則在所述格子框架結構中查找所述路徑以獲得字符識別結果。
11.如權利要求10所述的方法,其特征在于,進一步地包含基于所述目標文本分析包括線和劃線的圖形、和與包括下劃線和包圍線的標記相關的標記信息項。
12.如權利要求10所述的方法,其特征在于,生成所述用戶詞典將對于包括在所述文本數據項中的一個文本數據項中的標記頁面中的第二字符串的、和對于在所述文本數據項中的所述一個文本數據項中的標記字符串的偏愛等級設置為高,并且在所述用戶詞典中登記所述第二字符串和所述標記字符串,所述第二字符串是所述第一字符串中的一個,所述偏愛等級指示以偏愛的方式將每個字符識別為所述偏愛的字符所用的等級。
13.如權利要求10所述的方法,其特征在于,進一步地包含通過另一個應用程序收集包括在郵件和由所述用戶創建的文檔中的所述文本數據項。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于株式會社東芝;,未經株式會社東芝;許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201380050494.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于在汽車中提供數據的方法和系統
- 下一篇:用于確定患者狀態的方法和系統





