[發(fā)明專利]一種基于分割和形變LSTM的手寫體蒙古文檢測和識別方法在審
| 申請?zhí)枺?/td> | 202110689571.0 | 申請日: | 2021-06-22 |
| 公開(公告)號: | CN113420760A | 公開(公告)日: | 2021-09-21 |
| 發(fā)明(設(shè)計(jì))人: | 薩和雅;麻澤蕊;仁慶道爾吉;代欽 | 申請(專利權(quán))人: | 內(nèi)蒙古師范大學(xué) |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/38;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 西安智大知識產(chǎn)權(quán)代理事務(wù)所 61215 | 代理人: | 段俊濤 |
| 地址: | 010010 內(nèi)蒙古自*** | 國省代碼: | 內(nèi)蒙古;15 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 分割 形變 lstm 手寫體 蒙古文 檢測 識別 方法 | ||
1.一種基于分割和形變LSTM的手寫體蒙古文檢測和識別方法,其特征在于,包括如下步驟:
第一步:獲取手寫體蒙古文圖像作為輸入圖像,手寫體蒙古文檢測模型為基于分割的任意形狀文本檢測器SAST,檢測復(fù)雜環(huán)境中手寫體蒙古文,得到劃分文本候選框的圖像;
第二步:將進(jìn)行過文本檢測的手寫體蒙古文圖像,即劃分文本候選框的圖像作為RoIRotate模塊的輸入圖像,對定向的特征區(qū)域進(jìn)行變換以獲得軸對齊的特征圖;
第三步:獲取獨(dú)立的特征圖作為輸入圖像,使用形變LSTM結(jié)合CTC模塊構(gòu)成手寫體蒙古文識別模型,實(shí)現(xiàn)文字識別。
2.根據(jù)權(quán)利要求1所述基于分割和形變LSTM的手寫體蒙古文檢測和識別方法,其特征在于,所述任意形狀文本檢測器SAST利用基于全卷積網(wǎng)絡(luò)的上下文多任務(wù)學(xué)習(xí)框架來學(xué)習(xí)文本區(qū)域的各種幾何特征,從而構(gòu)造文本區(qū)域的多邊形表示,所述基于分割的任意形狀文本檢測器SAST將高層次的目標(biāo)知識和低層次的像素信息融合在一個鏡頭中,從而以高精度和高效的方式檢測任意形狀的場景文本。
3.根據(jù)權(quán)利要求1所述基于分割和形變LSTM的手寫體蒙古文檢測和識別方法,其特征在于,所述第一步具體步驟如下:
步驟1:從輸入圖像中提取特征
使用RESNET-50作為SAST的主干網(wǎng)絡(luò),并通過全連接網(wǎng)絡(luò)將文本區(qū)域的多種屬性在一個多任務(wù)學(xué)習(xí)中同時提取出來,屬性包括:文本中心線TCL、文本邊界偏移TBO、文本中心偏移TCO和文本頂點(diǎn)偏移TVO;即,將包含TCL、TBO、TCO、TVO映射信息的特征圖作為一個多任務(wù)問題進(jìn)行學(xué)習(xí),并將所得特征圖依次命名為TCL特征圖、TBO特征圖、TCO特征圖和TVO特征圖,卷積網(wǎng)絡(luò)輸出通道分別設(shè)置為{1,2,8,4},用于預(yù)測和提取TCL特征圖、TBO特征圖、TCO特征圖和TVO特征圖;同時,引入上下文注意力模塊(Content-Attention-Block,CAB)以聚合上下文信息從而實(shí)現(xiàn)特征增強(qiáng);其中,所述TCL特征圖作為區(qū)分文本/非文本的單通道分割特征圖,描述輸入圖像某像素點(diǎn)屬于文本中心線像素點(diǎn)的概率;TCO特征圖描述文本中心點(diǎn)偏置,即輸入圖像某像素點(diǎn)距其所屬的文本實(shí)例矩形框中心的水平和垂直方向距離;TVO特征圖描述文本四頂點(diǎn)偏置,即輸入圖像中某像素點(diǎn)距其所屬的文本實(shí)例矩形框四頂點(diǎn)水平及垂直方向的距離;TBO特征圖描述文本邊界偏置,即對輸入圖像中,某像素點(diǎn)距其所屬的文本實(shí)例上下邊界框的水平及垂直方向距離進(jìn)行描述;
步驟2:輸入圖像文本實(shí)例分割
使用四點(diǎn)賦值機(jī)制,利用具有高級對象信息的TCL、TCO和TVO映射生成文本實(shí)例分割:
首先,基于生成的TCL特征圖和TVO特征圖檢測候選文本四邊形,形成的候選文本四邊形將用于組合形成文本檢測框;步驟為:將獲取的TCL進(jìn)行閾值過濾,將置信率低于閾值的像素點(diǎn)剔除,根據(jù)TVO特征圖,使處理過的TCL特征圖的每個像素點(diǎn)得到對應(yīng)的文本矩形框四頂點(diǎn)坐標(biāo),并進(jìn)行非最大值抑制NMS,得到所需的文本實(shí)例矩形框及其中心點(diǎn),作為高層級目標(biāo)知識;
然后,根據(jù)TCO特征圖,計(jì)算TCL中屬于文本的像素點(diǎn)所屬文本實(shí)例的幾何中心點(diǎn),該中心點(diǎn)將作為低層級像素信息;當(dāng)計(jì)算所得的幾何中心點(diǎn)與之前所得矩形框中心點(diǎn)重合或相近時,該像素點(diǎn)將被歸類給之前所得矩形框?qū)?yīng)的文本實(shí)例,同時,所有高于閾值的像素點(diǎn)劃分為不同的文本實(shí)例;
步驟3:生成文本候選框,實(shí)現(xiàn)反向傳播
經(jīng)過步驟2,得到被TVO、TCO修正后的、準(zhǔn)確的TCL文本中心線,對文本中心線進(jìn)行自適應(yīng)采樣,即采樣點(diǎn)的間距相同,到的采樣點(diǎn)數(shù)目與文本線的長度有關(guān),根據(jù)文本邊界偏置圖TBO所提供的信息,計(jì)算文本中心線的采樣點(diǎn)上的上下邊界定位點(diǎn),將所有的邊界定位點(diǎn)按照從左上角開始的順時針方向依次進(jìn)行連接,得到最終的文本邊界框,其中,多于四個頂點(diǎn)的多邊形由多個連接的四邊形候選框劃定,對于非TCL特征圖像素,將其對應(yīng)的幾何屬性設(shè)置為0。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于內(nèi)蒙古師范大學(xué),未經(jīng)內(nèi)蒙古師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110689571.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 用于高階長短期記憶網(wǎng)絡(luò)的系統(tǒng)和方法
- 基于深度學(xué)習(xí)LSTM的空調(diào)故障診斷方法
- 基于注意力機(jī)制的時間序列預(yù)測方法、裝置及存儲介質(zhì)
- 一種基于PCA-LSTM網(wǎng)絡(luò)的廢水處理智能監(jiān)控方法
- 一種基于FAF-LSTM深度神經(jīng)網(wǎng)絡(luò)的居民負(fù)荷預(yù)測方法及系統(tǒng)
- 用于預(yù)測血糖水平的循環(huán)神經(jīng)網(wǎng)絡(luò)裝置和系統(tǒng)
- 基于情景LSTM結(jié)構(gòu)網(wǎng)絡(luò)的微博情感分析方法
- 語音信號處理方法、裝置、電子設(shè)備和存儲介質(zhì)
- 基于約束并行LSTM分位數(shù)回歸的電力負(fù)荷概率預(yù)測方法
- 基于深度網(wǎng)絡(luò)AS-LSTM的命名實(shí)體識別系統(tǒng)及識別方法





