[發(fā)明專利]文本版面分析方法、裝置、計算機設(shè)備和存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202010219551.2 | 申請日: | 2020-03-25 |
| 公開(公告)號: | CN111340037B | 公開(公告)日: | 2022-08-19 |
| 發(fā)明(設(shè)計)人: | 王曉珂 | 申請(專利權(quán))人: | 上海智臻智能網(wǎng)絡(luò)科技股份有限公司 |
| 主分類號: | G06V30/148 | 分類號: | G06V30/148 |
| 代理公司: | 北京集佳知識產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 張振軍 |
| 地址: | 201803 上海市嘉*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 版面 分析 方法 裝置 計算機 設(shè)備 存儲 介質(zhì) | ||
一種文本版面分析方法、裝置、計算機設(shè)備和存儲介質(zhì),其中,文本版面分析方法包括:獲取目標圖片;對所述目標圖片進行版面區(qū)域分割,得到若干個分割區(qū)域;根據(jù)所述目標圖片的紋理特征識別所述目標圖片的文字區(qū)域;將所述目標圖片中的文字區(qū)域與所述若干個分割區(qū)域進行匹配,以得到各個分割區(qū)域包含的文字區(qū)域;對每一分割區(qū)域包含的文字區(qū)域進行內(nèi)容識別,得到該分割區(qū)域的文字內(nèi)容;輸出各個分割區(qū)域的文字內(nèi)容。由此,能夠有效提高對圖片中文字識別的準確性。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機視覺技術(shù)領(lǐng)域,具體地涉及一種文本版面分析方法、裝置、計算機設(shè)備和存儲介質(zhì)。
背景技術(shù)
隨著互聯(lián)網(wǎng)圖片內(nèi)容的不斷增加,以及辦公掃描打印文件的日益增加,常需要將掃描打印的圖片轉(zhuǎn)化為文字信息,因而如何實現(xiàn)高效的文字識別和檢測,以快速完成掃描打印的圖片中文字轉(zhuǎn)化成為一個亟需解決的問題。
目前常見的識別方案一般包含文字定位和識別兩部分,文字行定位的準確性與識別的準確率成線性正比關(guān)系。但是從文檔中得到文本內(nèi)容很容易,但是這些文本內(nèi)容位置是隨機的,尤其是對印刷歪的圖片進行識別時,其識別內(nèi)容的準確性較低。
發(fā)明內(nèi)容
本發(fā)明解決的技術(shù)問題是如何提供一種能夠準確識別圖片中的文字內(nèi)容的文本版面分析方法。
為解決上述技術(shù)問題,本發(fā)明實施例提供一種文本版面分析方法,所述方法包括:獲取目標圖片;對所述目標圖片進行版面區(qū)域分割,得到若干個分割區(qū)域;根據(jù)所述目標圖片的紋理特征識別所述目標圖片的文字區(qū)域;將所述目標圖片中的文字區(qū)域與所述若干個分割區(qū)域進行匹配,以得到各個分割區(qū)域包含的文字區(qū)域;對每一分割區(qū)域包含的文字區(qū)域進行內(nèi)容識別,得到該分割區(qū)域的文字內(nèi)容;輸出各個分割區(qū)域的文字內(nèi)容。
可選的,對每一分割區(qū)域包含的文字區(qū)域進行內(nèi)容識別時,屬于同一分割區(qū)域的文字區(qū)域被一并傳輸至文本識別模型進行識別。
可選的,所述對每一分割區(qū)域包含的文字區(qū)域進行內(nèi)容識別,包括:對每一分割區(qū)域中包含的各個文字區(qū)域分別進行內(nèi)容識別,得到該文字區(qū)域的文字內(nèi)容;將各個文字區(qū)域的文字內(nèi)容進行拼接,得到該分割區(qū)域的文字內(nèi)容。
可選的,所述根據(jù)所述目標圖片的紋理特征識別所述目標圖片的文字區(qū)域,包括:將所述目標圖片通過多個卷積核進行卷積運算,以從所述目標圖片提取文字對應(yīng)的若干個紋理特征層;為所述若干個紋理特征層中部分或全部的紋理特征層分別分配多個不同感受野的錨點區(qū)域;對所述分配的錨點區(qū)域進行回歸,得到所述目標圖片的文字區(qū)域。
可選的,所述根據(jù)所述目標圖片的紋理特征識別所述目標圖片的文字區(qū)域,包括:通過將所述目標圖片輸入紋理提取模型中,得到所述目標圖片不同特征維度的若干個紋理特征層,所述紋理提取模型是根據(jù)歷史圖片中的紋理特征進行分析得到的、用以提取輸入的圖片中的紋理特征層的模型;從所述若干個紋理特征層中篩選出基礎(chǔ)紋理特征層;將所述基礎(chǔ)紋理特征層進行特征疊加,得到所述目標圖片的文字特征層;根據(jù)所述文字特征層獲取所述目標圖片的文字區(qū)域。
可選的,所述文字區(qū)域為目標圖片中包含的每行文字對應(yīng)的區(qū)域。
可選的,輸出的各個分割區(qū)域的文字內(nèi)容為字符串。
本發(fā)明實施例還提供一種文本版面分析裝置,所述裝置包括:圖片獲取模塊,用于獲取目標圖片;版面分割模塊,用于對所述目標圖片進行版面區(qū)域分割,得到若干個分割區(qū)域;區(qū)域識別模塊,用于根據(jù)所述目標圖片的紋理特征識別所述目標圖片的文字區(qū)域;版面分析模塊,用于將所述目標圖片中的文字區(qū)域與所述若干個分割區(qū)域進行匹配,以得到各個分割區(qū)域包含的文字區(qū)域;內(nèi)容識別模塊,用于對每一分割區(qū)域包含的文字區(qū)域進行內(nèi)容識別,得到該分割區(qū)域的文字內(nèi)容;輸出模塊,用于輸出各個分割區(qū)域的文字內(nèi)容。
本發(fā)明實施例還提供一種計算機設(shè)備,包括存儲器和處理器,所述存儲器上存儲有能夠在所述處理器上運行的計算機指令,所述處理器運行所述計算機指令時執(zhí)行上述文本版面分析方法的步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海智臻智能網(wǎng)絡(luò)科技股份有限公司,未經(jīng)上海智臻智能網(wǎng)絡(luò)科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010219551.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





