[發明專利]一種多層三值主元與雙向長短期記憶融合的文本識別方法有效
| 申請號: | 202110672336.2 | 申請日: | 2021-06-17 |
| 公開(公告)號: | CN113408525B | 公開(公告)日: | 2022-08-02 |
| 發明(設計)人: | 紀祿平;李真;陳香 | 申請(專利權)人: | 成都崇瑚信息技術有限公司 |
| 主分類號: | G06V30/40 | 分類號: | G06V30/40;G06V10/82;G06V10/77;G06N3/04;G06N3/08 |
| 代理公司: | 成都東恒知盛知識產權代理事務所(特殊普通合伙) 51304 | 代理人: | 李英 |
| 地址: | 610000 四川省*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 多層 三值主元 雙向 短期 記憶 融合 文本 識別 方法 | ||
本發明涉及文本識別技術領域,涉及一種多層三值主元與雙向長短期記憶融合的文本識別方法,其包括以下步驟:一、輸入場景圖像;二、經過基于多層融合的TPCANet模型獲得圖像特征輸出;三、將圖像特征輸入BLSTM網絡預測置信度;四、輸入全連接進行預測最可能的文本框坐標;五、根據文本框坐標在原圖像上進行目標文本框的切割;六、將切割得到的文本框輸入基于多層融合的TPCANet模型提取包含更多文本信息及空間信息的特征輸出;七、繼續輸入BLSTM網絡預測特征序列對應字符的概率;八、將帶概率的序列輸入CTC網絡預測最大概率的序列,實現轉錄,從而輸出所需要的文本序列。本發明具有較佳的識別能力。
技術領域
本發明涉及文本識別技術領域,具體地說,涉及一種多層三值主元與雙向長短期記憶融合的文本識別方法。
背景技術
文字的出現對于人類文明的發展和傳承有著重要的現實意義和歷史意義,古今中外思想的交流、文化的發展、歷史的記載無不依賴于文字的出現。文字既是信息的載體,也是人類認知世界的重要手段,它不僅能夠獨立傳遞信息,也能夠和其他視覺元素相互補充傳遞更高層次的語言含義。隨著經濟社會的蓬勃發展,自然場景中的文本元素隨處可見,例如公交車站牌、道路指示牌、商城廣告牌等等。這些文本指示能夠透露給我們大量的環境信息等待我們的探索和利用。
在將深度學習應用到文本檢測與識別之前,已經對文檔檢測有了相應的解決方案——OCR(光學字符識別)。在過去,硬件設備落后、對自然場景文本檢測與識別的客觀需求也較低,OCR作為當時最先進的文檔識別技術為人類提供了便捷的服務。雖然OCR局限于文檔識別、識別率較低以及存在需要大量人工輔助等問題,但該技術經過長時間的發展,目前也任在生活中的方方面面服務著人們的學習和生活。
近年來,計算機軟硬件設備飛速發展,智能家居、智能駕駛、機器人引導、拍照翻譯系統等智能應用紛紛落地,這些應用依靠對自然環境信息的理解能夠為人類提供非常便捷的服務,因為自然場景中出現的文本多數是帶有說明性、引導性、指示性的信息,能夠為智能控件提供更直觀、更豐富、更準確的環境信息。因此獲得自然場景中的文本信息的需求已經變得更加迫切。
自然場景圖像中的文本識別,其難度遠大于掃描文檔圖像中的文本識別。不同于掃描文本的規則與背景一致,自然場景中的文本展現形式非常豐富。場景文字存在多種語言的文本混合,甚至文本字符也可以有不同的大小、字體樣式、顏色、亮度、對比度等特殊呈現。文本行也可能出現橫向、豎向、彎曲、旋轉、扭曲等不規則樣式。特別地,自然場景圖像的背景還復雜多樣,比如文本可以出現在平面、曲面或折皺面上,文本區域附近也可能出現復雜的干擾紋理、或者非文本區域有近似文字的紋理,文本區域還可能會產生變形,比如透視、仿射變換、殘缺、模糊等。
不同于以往,隨著人工智能的興起、深度神經網絡學習理論的發展、計算硬件的快速迭代,自然場景的文本檢測與識別迎來了屬于它的浪潮。深度學習在圖像識別領域的成就為自然場景的文本檢測與識別問題的解決奠定了堅實的基礎,基于計算機視覺與自然語言處理等學科交叉的自然場景文本檢測與識別課題成為了識別自然場景文本問題的重要研究熱點。因為深度學習本身就具有強大的擬合能力,相對于傳統的OCR技術,深度神經網絡的學習更加具有解決在復雜的自然場景下進行文本檢測與識別這類問題的前途。
發明內容
本發明的內容是提供一種多層三值主元與雙向長短期記憶融合的文本識別方法,其能夠克服現有技術的某種或某些缺陷。
根據本發明的一種多層三值主元與雙向長短期記憶融合的文本識別方法,其包括以下步驟:
一、向場景文本模型輸入一張包含文本信息的場景圖像;
二、經過基于多層融合的多層三值主元網TPCANet模型獲得圖像特征輸出;
三、將圖像特征輸入長短期記憶網BLSTM網絡預測每個像素點上對應的k個錨點框的置信度;
四、再輸入全連接進行預測最可能的文本框坐標;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都崇瑚信息技術有限公司,未經成都崇瑚信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110672336.2/2.html,轉載請聲明來源鉆瓜專利網。





