[發明專利]基于OCR和雙向LSTM的文字序列糾錯算法、系統及其設備在審
| 申請號: | 201710630581.0 | 申請日: | 2017-07-28 |
| 公開(公告)號: | CN107463928A | 公開(公告)日: | 2017-12-12 |
| 發明(設計)人: | 王志成;鄺展豪;高磊;劉志欣;王亮 | 申請(專利權)人: | 順豐科技有限公司 |
| 主分類號: | G06K9/03 | 分類號: | G06K9/03;G06K9/32 |
| 代理公司: | 北京志霖恒遠知識產權代理事務所(普通合伙)11435 | 代理人: | 崔靜 |
| 地址: | 518061 廣東省深圳市南山區學府路(以南)*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 ocr 雙向 lstm 文字 序列 糾錯 算法 系統 及其 設備 | ||
技術領域
本發明涉及圖像文字識別過程中機器翻譯領域,尤其涉及基于OCR和雙向LSTM的文字序列糾錯算法、系統及其設備。
背景技術
近年來,隨著機器學習的迅猛發展,各種機器翻譯算法層出不窮,被廣泛應用的有OCR文字識別算法。OCR(Optical Character Recognition,光學字符識別)是指電子設備(例如掃描儀或數碼相機)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程;即,針對印刷體字符,采用光學的方式將紙質文檔中的文字轉換成為黑白點陣的圖像文件,并通過識別軟件將圖像中的文字轉換成文本格式,供文字處理軟件進一步編輯加工的技術。
然而,由于圖像光照、角度等影響,OCR識別文字算法精度很難達到期望。
發明內容
為了解決上述技術問題,本發明提出基于OCR和雙向LSTM的文字序列糾錯算法。系統及其設備,它能夠有效的提高文字序列識別的準確度。
為了實現上述目的,本發明的技術方案為:
基于OCR和雙向LSTM的文字序列糾錯算法,適用于圖像中文字的識別,包括步驟:
S1,獲取文字圖像;
S2,所述文字圖像經過OCR預處理得到第一序列集合X={x0,x1,...,xm};
S3,將正序的{x0,x1,…,xm}以及反序的{xm,xm-1,...,x0}輸入雙向LSTM構建的編碼器中得到語境向量c;
S4,所述語境向量c經雙向LSTM構建的解碼器解碼分別獲得第二序列集合Y。
步驟S3中所述的語境向量c為:
c=Φ({h1,h2,…,hTS});
ht=f(xt,ht-1)。
步驟S4中所述的第二序列集合Y為:
Y=(y0,y1,…,yn);
st=f(yt-1,st-1,c);
p(yt|y<t,X)=g(yt-1,st,c)。
步驟S1中所述的文字圖像為快遞單圖像。
步驟S2中所述的OCR預處理的閾值為系統允許的最低reliability閾值。
基于OCR和雙向LSTM的文字序列糾錯系統,包括:
圖像采集模塊,用于獲取文字圖像;
OCR處理模塊,用于對所述文字圖像進行OCR預處理得到第一序列集合X={x0,x1,...,xm};
雙向LSTM構建的編碼器,用于對正序的{x0,x1,…,xm}以及反序的{xm,xm-1,...,x0}進行編碼得到語境向量c;
雙向LSTM構建的解碼器,用于對所述語境向量c進行解碼分別獲得第二序列集合Y。
基于OCR和雙向LSTM的文字序列糾錯設備,包括存儲有計算機程序的計算機可讀介質,所述程序被運行用于執行:
S1,獲取文字圖像;
S2,所述文字圖像經過OCR預處理得到第一序列集合X={x0,x1,...,xm};
S3,將正序的{x0,x1,…,xm}以及反序的{xm,xm-1,...,x0}輸入雙向LSTM構建的編碼器中得到語境向量c;
S4,所述語境向量c經雙向LSTM構建的解碼器解碼分別獲得第二序列集合Y。
本發明的有益效果是:通過綜合運用OCR和雙向LSTM算法,提升了文字識別的準確度。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于順豐科技有限公司,未經順豐科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710630581.0/2.html,轉載請聲明來源鉆瓜專利網。





