[發明專利]具備輔助定位功能的OCR識別方法和裝置有效

申請號：	200810215861.6	申請日：	2008-09-05
公開（公告）號：	CN101667251A	公開（公告）日：	2010-03-10
發明（設計）人：	陳又新;李斌;王華;王炎	申請（專利權）人：	三星電子株式會社;北京三星通信技術研究有限公司
主分類號：	G06K9/20	分類號：	G06K9/20
代理公司：	中科專利商標代理有限責任公司	代理人：	戎志敏
地址：	韓國***	國省代碼：	韓國;KR
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	具備輔助定位功能 ocr 識別方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及圖像處理和模式識別領域，特別是視頻和自然場景中的文本檢測和定位，字符識別。

背景技術

現在OCR技術越來越多地應用到帶有圖像掃描(或攝像)功能的移動智能終端和PDA等設備上，但是由于往往背景較為復雜如視頻圖像時，在 OCR之前的文本定位問題上還存在著一定的技術難點，造成文本定位的結果出現偏差，不能方便準確地檢測到所需要識別的字符，或把一個文本區域錯誤地劃分為多個相關的文本子區域，影響OCR識別結果的連續性和計算開銷，再加上文字識別率偏低，造成最終的結果(如翻譯)不很理想，因而這時候就需要進行一些輔助定位的方式來提高文字定位準確率和識別準確率。

目前圖像(或視頻)文本識別的基本過程，首先通過對所采集到的文本圖像(或視頻中的某幀圖像)，進行圖像的預處理(增強濾波等)，以及版面的分析和理解，以此檢測和定位出文本區域，再對各個文本區域進行字符識別，進一步可對識別結果做后處理校正等操作，其中的“文本區域定位”直接影響最終的識別結果，以及整個系統的計算效率。

現有的OCR功能手機通過攝像頭掃描文本文字，進行中英互譯，用戶使用時首先需將手機上的攝像頭對準文字中心，手機與文字垂直距離為10 厘米以上；用戶通過手機上導航鍵進行對焦；需要確保待識別文字的高度高于顯示對焦符號“+”的高度；若是豎排的中文文字，需要在菜單中選擇“豎排文本”。在操作的界面中，會出現“高亮”的條帶來定位待識別的文本區域，對此條帶區域中的文字進行識別和翻譯。該方法采用“高亮” 的條帶來輔助定位待識別的文本區域，需要用戶將手機上的攝像頭對準文字中心，以及需要手機與文字垂直保持一定的距離，如若要識別豎排的文本區域時需要用戶做特別設定，給用戶的操作有很多的限制，系統不能自動進行文本區域的定位，并且運行的時間長。

[CN?1804858?A]是一種用于帶攝像頭的移動終端，實施OCR功能的針對待識別文字的輔助定位技術，該方法使屏幕上會出現一個十字光標，用戶移動光標，可以使光標的原點位于待識別文本區域內，以此來輔助定位，同時可以調整待識別字符區域的底邊與十字光標的橫軸平行，待識別字符區域的底邊與十字光標的縱軸相垂直，用來防止拍攝傾斜，提高識別率。該方法采用十字光標，來輔助定位待識別文本區域，調整十字光標的橫軸和縱軸與待識別字符區域的底邊相互平行和垂直，用來防止文字的傾斜，需要用戶仔細調整光標的位置，并且每次只能定位一個文本區域，整個定位和識別的運行時間較長。

[CN?1685358?A]提出一種在圖像中自動定位文本區域的方法，包括的步驟有把數字圖像轉化為二值圖像；定位可能的文本區域；選擇實際文本區域；其在文本區域定位步驟中的特征是，應用形態學掩模，以對二值圖像應用形態學操作，再根據一些規則，以在圖像中生成封閉塊，從而定位文本區域。該方法采用在全部的圖像區域中，來搜索定位文本區域，計算量大并且會出現一些錯誤和遺漏的定位。

[US?7171046]提出一種在采集的圖像中識別文字的方法，包括的步驟有使用便攜式設備采集有文本信息的圖像；實時地檢測圖像中的文本區域；調整文本檢測區域的結果，應用OCR技術進行文字識別；補充相關的外在信息，包括旅游信息、交通信息等；使用詞典技術來改進OCR識別的結果，輸出識別的文本和補充的信息，或進一步地進行翻譯，并且把采用該方法的圖像文字檢測和識別系統在一個便攜式的設備中實現。該方法在識別之前手工調整文本區域定位的結果，需要用戶的直接干預，不方便用戶的直接使用。

發明內容

本發明的目的是提供一種具備輔助定位功能的OCR識別方法和裝置。

按照本發明的一方面，一種具備輔助定位功能的OCR識別方法，包括步驟：

對目標進行拍攝并捕獲到包含文字的圖像；

對所述圖像區域進行搜索，檢測出一個或多個文本區域；

選擇特定文本區域；

對被選擇的特定文本區域中的文字進行識別。

按照本發明的另一方面，一種具備輔助定位功能的OCR識別方法，包括步驟：

點擊屏幕上包括文本區域的一個或多個點；

對包含有點擊處的圖像區域進行拍攝；

對拍攝圖像進行文本區域的檢測和定位，得到候選文本區域；

對候選文本區域中的文字進行OCR識別。