[發(fā)明專利]一種基于文本分割的兩階段場景文本擦除方法在審
| 申請?zhí)枺?/td> | 202310138579.7 | 申請日: | 2023-02-20 |
| 公開(公告)號: | CN116012835A | 公開(公告)日: | 2023-04-25 |
| 發(fā)明(設(shè)計(jì))人: | 張國棟;賴沁玲 | 申請(專利權(quán))人: | 張國棟 |
| 主分類號: | G06V20/62 | 分類號: | G06V20/62;G06V10/26;G06V10/82;G06N3/08;G06N3/0464 |
| 代理公司: | 深圳知企辦專利代理有限公司 44968 | 代理人: | 何海燕 |
| 地址: | 321000 浙*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 文本 分割 階段 場景 擦除 方法 | ||
1.一種基于文本分割的兩階段場景文本擦除方法,其特征在于,包括以下步驟:
構(gòu)建數(shù)據(jù)集:將現(xiàn)有的文本分割數(shù)據(jù)集和場景文本擦除數(shù)據(jù)集整理并收集,并為場景文本擦除數(shù)據(jù)集人工標(biāo)注出精確的文本掩碼,利用這些文本掩碼,通過場景文本大小編輯技術(shù),合成更多的含有不同尺寸文本的自然場景圖像;
場景文本分割:構(gòu)建一個(gè)多尺度注意力文本分割網(wǎng)絡(luò),將訓(xùn)練集預(yù)處理后輸入到多尺度注意力文本分割網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,利用訓(xùn)練好的多尺度注意力文本分割網(wǎng)絡(luò)對場景文本進(jìn)行分割,從而得到文本圖像;
場景文本擦除:構(gòu)建一個(gè)基于生成式對抗網(wǎng)絡(luò)的文本擦除網(wǎng)絡(luò),將標(biāo)注好的含有文本掩碼的場景文本擦除數(shù)據(jù)集輸入到文本擦除網(wǎng)絡(luò)中訓(xùn)練,最后,利用訓(xùn)練好的文本擦除網(wǎng)絡(luò)進(jìn)行場景文本擦除,生成真實(shí)的無文本圖像。
2.如權(quán)利要求1所述的一種基于文本分割的兩階段場景文本擦除方法,其特征在于,數(shù)據(jù)集具體通過如下方法構(gòu)建:
收集并整理目前已有的文本分割數(shù)據(jù)集和場景文本擦除數(shù)據(jù)集,使用LabelMe軟件為場景文本擦除數(shù)據(jù)集人工標(biāo)注準(zhǔn)確的文字掩碼;
收集含有不多紋理的背景圖像,利用已有的文字掩碼,使用OPenCV和圖像合成方法,合成更多的多尺寸文本的自然場景文本圖像,以增加背景和文字多樣性;
將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測試集,并對訓(xùn)練集進(jìn)行預(yù)處理操作,隨機(jī)選取訓(xùn)練數(shù)據(jù)集的圖像對,對圖像對進(jìn)行變換操作,變換操作包括旋轉(zhuǎn)、放大和縮小。
3.如權(quán)利要求1所述的一種基于文本分割的兩階段場景文本擦除方法,其特征在于,多尺度注意力文本分割網(wǎng)絡(luò)由三個(gè)主要模塊組成,具體為文本信息增強(qiáng)模塊、文本分割模塊、雙感知解碼器,整體結(jié)構(gòu)是基于經(jīng)典編碼器-解碼器結(jié)構(gòu)進(jìn)行設(shè)計(jì)的,它的輸入是一張自然場景文本圖片。
4.如權(quán)利要求3所述的一種基于文本分割的兩階段場景文本擦除方法,其特征在于,文本信息增強(qiáng)模塊引入了更高層次的文本語義信息,并提供文本注意力圖作為先驗(yàn)知識,以促進(jìn)文本識別,通過使模型更多地關(guān)注圖像中的文本區(qū)域而不是背景,不僅可以減少背景中類似紋理對文本分割的干擾,還可以減少網(wǎng)絡(luò)的計(jì)算量。
5.如權(quán)利要求3所述的一種基于文本分割的兩階段場景文本擦除方法,其特征在于,在特征編碼階段,所提出的文本分割模塊被用來通過容納全局和局部的特征對復(fù)雜的文本分割特征進(jìn)行建模,它賦予全局文本同等的關(guān)注權(quán)重,以重新激活那些具有罕見紋理的文本,因?yàn)樗鼈兣c主導(dǎo)文本有很強(qiáng)的語義關(guān)聯(lián),此外,它還適應(yīng)不規(guī)則的多尺度場景文本,以消除背景噪聲的干擾,從而捕獲更有效的局部特征。
6.如權(quán)利要求3所述的一種基于文本分割的兩階段場景文本擦除方法,其特征在于,在解碼階段,像素聚合到特定類別中是通過上采樣過程實(shí)現(xiàn)的,然而,深度特征圖的微小偏差可能導(dǎo)致文本分割結(jié)果不準(zhǔn)確或扭曲,特別是在具有復(fù)雜形狀的場景文本上,為了解決這個(gè)問題,我們提出了一種雙感知解碼器,它的參數(shù)可以動態(tài)調(diào)整以適應(yīng)空間和信道內(nèi)容。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于張國棟,未經(jīng)張國棟許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310138579.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





