[發明專利]文本信息識別方法及系統在審
| 申請號: | 201110219912.4 | 申請日: | 2011-08-02 |
| 公開(公告)號: | CN102915437A | 公開(公告)日: | 2013-02-06 |
| 發明(設計)人: | 張富春 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 何平;曾旻輝 |
| 地址: | 518044 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 信息 識別 方法 系統 | ||
【技術領域】
本發明涉及一種信息處理技術,尤其涉及一種文本信息識別方法及系統。
【背景技術】
目前,紙質文檔或者圖片上的文本信息,不能直接使用,在使用時需要手動輸入才可。為替代手動輸入,通常采用OCR(Optical?Character?Recognition光學字符識別)技術對文本信息進行識別。
但是,傳統的OCR技術,用戶在使用時,需要安裝一個龐大的客戶端軟件,并要求進行識別的計算機硬件具備足夠的處理性能。OCR技術主要面對的是紙質材料,識別場景需要考慮很多問題,因此識別率會受到復雜因素的制約。識別率的核心技術指標是特征庫。由于用戶計算機硬件及處理器性能通常不具備足夠要求,識別能力和特征庫都受到用戶計算機性能的限制,大大降低了OCR技術對文本信息的識別率,不能準確的識別文本信息。
同時,在對文本信息識別后還需要進行糾錯。由于糾錯的能力取決于特征庫的信息量,特征庫受到本機性能的限制,從而大大限制了糾錯的能力,使得識別率進一步降低。
【發明內容】
有鑒于此,有必要提供一種識別率高的文本信息識別方法。
此外,提供一種識別率高的文本信息識別系統。
一種文本信息識別方法,包括如下步驟:
客戶端獲取包含文本信息的圖像,并將所述圖像發送至云服務器;
所述云服務器接收所述圖像,對所述圖像進行處理,提取出所述圖像中文本信息的字符;
所述云服務器對所述字符進行處理,獲取字符的特征;
所述云服務器根據所述字符的特征,查詢設置在所述云服務器上特征庫,與特征庫中的字符進行特征匹配,對字符進行識別,進而識別文本信息;
所述云服務器將識別的文本信息發送至客戶端。
一種文本信息識別系統,包括客戶端與云服務器,
所述客戶端用于獲取包含文本信息的圖像,并將所述圖像發送至所述云服務器;
所述云服務器包括:
收發服務器,用于接收所述圖像;
圖像處理服務器,用于對所述圖像進行處理,提取出所述圖像中文本信息的字符;
字符處理服務器,用于對所述字符進行處理,獲取字符特征;
特征庫服務器,根據所述字符的特征,查詢設置在特征庫服務器上特征庫,與特征庫中的字符進行特征匹配,對字符進行識別,進而識別文本信息;特征庫服務器將識別的文本信息交由收發服務器,收發服務器將識別的文本信息發送至所述客戶端。
上述文本信息識別方法及系統,客戶端將圖像上傳至云服務器,識別過程和云服務器均在云服務器上進行,云服務器具有強大的計算能力和擴展能力,性能能夠滿足特征庫的要求,使得特征庫和識別能力不受用戶計算機的限制,從而能夠準確的對文本信息進行識別,簡單、高效、識別率大大提高。用戶只需通過客戶端上傳圖像即可,云服務器便可同時為海量用戶提供服務,極大方便了用戶使用。
【附圖說明】
圖1是一個實施例中文本信息識別方法的流程圖;
圖2是一個實施例中云服務器對圖像進行處理,提取出圖像中文本信息的字符的方法流程圖;
圖3是一個實施例中文本信息識別系統的結構示意圖;
圖4是一個實施例中圖像處理服務器的結構示意圖。
【具體實施方式】
下面結合附圖,對本發明的具體實施方式進行詳細描述。
圖1是一個實施例中文本信息識別方法的流程圖。該方法包括:
S10:客戶端獲取包含文本信息的圖像,并將圖像發送至云服務器。
該方法所識別的對象為具有文本信息的圖像,對圖像中的文本信息進行識別。客戶端獲取的具有文本信息的圖像為通過對具有文本信息的紙質或者其他介質文檔進行掃描獲得,或者為直接的圖像,也可以為截取屏幕內容的截屏圖像等等。在優選的實施方式中,客戶端獲取的具有文本信息的圖像為即時通訊軟件截取屏幕內容所獲得的截屏圖像,將截圖圖像中的文本信息識別出,使文本信息可直接使用,無需將截圖圖像中的文本信息手動輸入。客戶端通過瀏覽器上傳的方式將圖像上傳到云服務器。
S20:云服務器接收圖像,對圖像進行處理,提取出圖像中文本信息的字符。
文本信息由多個字符組成,識別文本信息需要將文本信息的每個字符提取出來。云服務器可以為云計算平臺,也可以為包含多個計算節點的計算網絡或者多個服務器。云服務器具有強大的擴展能力、龐大的計算能力以及海量存儲能力,能夠同時接收大量客戶端傳送的圖像,同時為海量用戶提供服務。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110219912.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種水處理裝置
- 下一篇:一種采用含磷池水作磷酸二銨洗液補水的方法
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





