[發(fā)明專利]一種翻譯圖片中文字的方法有效
| 申請?zhí)枺?/td> | 201610073785.4 | 申請日: | 2016-02-02 |
| 公開(公告)號: | CN105761201B | 公開(公告)日: | 2019-03-22 |
| 發(fā)明(設計)人: | 王洪君;孫健琳;于光玉;劉珂;王小飛 | 申請(專利權(quán))人: | 山東大學 |
| 主分類號: | G06T3/00 | 分類號: | G06T3/00;G06K9/32;G06K9/34;G06K9/62;G06F17/28 |
| 代理公司: | 濟南金迪知識產(chǎn)權(quán)代理有限公司 37219 | 代理人: | 呂利敏 |
| 地址: | 250199 山*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 翻譯 圖片 文字 方法 | ||
本發(fā)明涉及一種翻譯圖片中文字的方法。本發(fā)明所述種翻譯圖片中文字的方法,僅對文檔中文字部分使用機器學習的方法進行檢測和OCR識別;可對文字部分先進行機器翻譯并設置相應翻譯準確的置信度,后期進行人工翻譯調(diào)整,并將不同翻譯準確率置信度的翻譯用不同的背景色標記區(qū)分,提高了翻譯準確度。本發(fā)明所述種翻譯圖片中文字的方法,提出了一種保留原有掃描文件圖片格式,僅通過識別圖片中文字區(qū)域和內(nèi)容可進行多種翻譯方式的選擇,翻譯準確度高,易操作和實現(xiàn)。
技術(shù)領域
本發(fā)明涉及一種翻譯圖片中文字的方法,屬于圖像處理的技術(shù)領域。
背景技術(shù)
在國際化越來越盛行和信息交互越來越頻繁的現(xiàn)代社會,很多情況下我們需要將某些證件、文件的掃描件或帶有特定文字格式的圖片中的文字內(nèi)容進行語言之間的翻譯。現(xiàn)有技術(shù)中,已經(jīng)有較成熟的技術(shù)和軟件來實現(xiàn)文本的翻譯;但是對于圖片中的文字,尤其是對于有特定格式的圖片中的文字,通常仍然需要依賴人工翻譯,并且重新保存文件的格式,圖片中文字內(nèi)容的翻譯因此也變得繁瑣和不便利。
掃描文件一般保存為圖片格式,圖片中包含特定文字和特定的排版。在需要將圖片文字進行翻譯的情況下,不能方便地提取圖片中的文字進行翻譯,也很難保留原來圖片中的排版格式。
現(xiàn)有技術(shù)中關于掃描文字的識別已經(jīng)有各種識別軟件,中國專利CN102904909A公開了一種云模式的OCR文字識別方法,該方法是一種基于OCR識別的文字識別技術(shù)。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)的不足,本發(fā)明提供一種翻譯圖片中文字的方法。
本發(fā)明的技術(shù)方案如下:
發(fā)明概述:一種翻譯圖片中文字的方法,圖片文件中文字的翻譯步驟包括,圖片文件的預處理,圖片文件中文字區(qū)域的識別,OCR字符識別以及標記置信度的文字翻譯。
一種翻譯圖片中文字的方法,包括步驟如下:
1)圖片的預處理:對圖片進行去噪、文字內(nèi)容對齊和對比度調(diào)整。來自掃描儀或者相機的圖片,一般都包含噪聲點,文字內(nèi)容可能歪斜,圖片的亮度、對比度差異也較大。為了提高后續(xù)文字識別的準確度,需要對圖片進行預處理,以去除圖片中的噪聲點,矯正圖片上下邊緣處于水平位置及矯正圖片中文本行保持水平,并通過對比度調(diào)整使得圖片中的文字和背景能明顯區(qū)分出來。
2)文字區(qū)域檢測:在圖片中,文字區(qū)域的位置和大小不固定,采用機器學習的方法生成的檢測器檢測并標記圖片中的文字區(qū)域和非文字區(qū)域:
模型訓練:通過文字區(qū)域樣本和非文字區(qū)域樣本生成檢測器。用來檢測圖片中文字的檢測器是使用Soft-Cascade機器學習的方法訓練得來的,這種方法需要預先準備兩組矩形圖片的樣本:正例組(文字區(qū)域樣本)的矩形圖片為文字,負例組(非文字區(qū)域樣本)的矩形圖片為非文字;這種方法需要預先準備一些掃描圖片樣本,對樣本圖片中的文字區(qū)域進行人工標記,再利用固定大小的滑動窗口依次掃過整張圖片,將窗口2/3區(qū)域落在人工標記的文字區(qū)域的矩形圖片標記為正例組(文字區(qū)域樣本),否則標記為負例組(非文字區(qū)域樣本)。使用該訓練集進行的訓練,最終生成的檢測器能判斷輸入的矩形區(qū)域是否屬于文字區(qū)域;
區(qū)域檢測:將預處理后的圖片按不同比例縮小,得到圖片的金字塔形數(shù)據(jù),使用滑動窗口技術(shù)分別掃過不同大小的圖片,通過固定窗口大小的檢測器確定掃過的每個區(qū)域是否為文字區(qū)域,將不同比例圖片得到的文字區(qū)域合并,標定出圖片中的文字區(qū)域;
3)文字區(qū)域識別:使用OCR字符識別技術(shù)調(diào)用第三方(Tesseract或FineReader)的API接口,識別文字區(qū)域內(nèi)的文字內(nèi)容并保存,同時將文字區(qū)域用背景色覆蓋,設置為可編輯區(qū)域;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東大學,未經(jīng)山東大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610073785.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





