[發明專利]圖像中的文本行檢測方法、裝置及計算機系統在審
| 申請號: | 201910227708.3 | 申請日: | 2019-03-25 |
| 公開(公告)號: | CN111738252A | 公開(公告)日: | 2020-10-02 |
| 發明(設計)人: | 楊志博;王永攀 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/34 |
| 代理公司: | 北京眾達德權知識產權代理有限公司 11570 | 代理人: | 南海燕 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 圖像 中的 文本 檢測 方法 裝置 計算機系統 | ||
本申請實施例公開了圖像中的文本行檢測方法、裝置及計算機系統,所述方法包括:建立目標算法模型;將待預測的目標圖像輸入到所述目標算法模型中,獲得預測結果,所述預測結果包括所述目標圖像中多個像素點的方向場信息,所述方向場信息包括:所述像素點屬于文字的置信度信息,以及像素點相對于其可能所屬的文本行的中心線的方向信息;根據所述多個像素點的方向場信息進行文本行分割。通過本申請實施例,對于圖像中的文本行成曲線排列,并且存在行粘連情況,也能夠準確的進行文本行的分割。
技術領域
本申請涉及文字識別技術領域,特別是涉及圖像中的文本行檢測方法、裝置及計算機系統。
背景技術
OCR(Optical Character Recognition,光學字符識別)是指對圖像文件進行分析處理,識別出其中的文字信息的過程。一般分為兩個步驟:文本行檢測,即檢測出文本行在圖像中的位置;文字識別,即識別文本行中的文字具體為哪個文字。
隨著OCR應用的普及,不僅是傳統的文檔掃描圖像,還有越來越多的自然場景圖片也開始應用OCR技術進行文字檢測識別,以幫助人校驗文字,檢查圖片中違規違法文字等。自然場景圖片中的文字展現形式豐富,除了橫向、豎向等直線排列的文字,還經常出現彎曲、旋轉、扭曲等曲線方式排列的文字。例如街景中一些圓形的廣告牌,商品圖中的一些logo商標。事實上,掃描文檔圖像中也存在曲線排列的文字,例如發票和法務文檔中的印章。只不過自然場景圖片中更為普遍。另外,還有一些圖片中,文字不僅是曲線方式排列,并且行與行之間的距離還可能會非常小,出現“行粘連”的情況。
上述曲線排列且“行粘連”的文字是文本行檢測的難點,利用現有的文本行檢測方法無法實現準確檢測。現有的文字檢測方法主要有以下兩類:基于候選框的文字檢測算法和基于語義分割的文字檢測算法。其中,基于候選框的文字檢測算法對于曲線形狀排列的文本行無法準確進行檢測定位;而基于語義分割的文字檢測算法是指基于對圖像的語義分類進行文字的檢測。當文本行相近時,僅利用語義分割難以將同屬文字類別卻分屬不同文本行的相鄰像素區分開,因此,無法處理“行粘連”的情況。
發明內容
本申請提供了圖像中的文本行檢測方法、裝置及計算機系統,對于圖像中的文本行成曲線排列,并且存在行粘連情況,也能夠準確的進行文本行的分割。
本申請提供了如下方案:
一種圖像中的文本行檢測方法,包括:
建立目標算法模型;
將待預測的目標圖像輸入到所述目標算法模型中,獲得預測結果,所述預測結果包括所述目標圖像中多個像素點的方向場信息,所述方向場信息包括:所述像素點屬于文字的置信度信息,以及像素點相對于其可能所屬的文本行的中心線的方向信息;
根據所述多個像素點的方向場信息進行文本行分割。
一種圖像中的文本行檢測裝置,包括:
模型建立單元,用于建立目標算法模型;
預測單元,用于將待預測的目標圖像輸入到所述目標算法模型中,獲得預測結果,所述預測結果包括所述目標圖像中多個像素點的方向場信息,所述方向場信息包括:所述像素點屬于文字的置信度信息,以及像素點相對于其可能所屬的文本行的中心線的方向信息;
文本行分割單元,用于根據所述多個像素點的方向場信息進行文本行分割。
一種計算機系統,包括:
一個或多個處理器;以及
與所述一個或多個處理器關聯的存儲器,所述存儲器用于存儲程序指令,所述程序指令在被所述一個或多個處理器讀取執行時,執行如下操作:
建立目標算法模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910227708.3/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





