[發(fā)明專利]一種基于多模態(tài)重建約束的手寫漢字識別和檢索方法在審
| 申請?zhí)枺?/td> | 202310275220.4 | 申請日: | 2023-03-21 |
| 公開(公告)號: | CN116432521A | 公開(公告)日: | 2023-07-14 |
| 發(fā)明(設(shè)計(jì))人: | 祁玉;覃捷;王躍明 | 申請(專利權(quán))人: | 浙江大學(xué) |
| 主分類號: | G06F30/27 | 分類號: | G06F30/27;G06V30/19;G06V30/244;G06N3/0464;G06N3/08;G06F111/04 |
| 代理公司: | 杭州天勤知識產(chǎn)權(quán)代理有限公司 33224 | 代理人: | 彭劍 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 多模態(tài) 重建 約束 手寫 漢字 識別 檢索 方法 | ||
本發(fā)明公開了一種基于多模態(tài)重建約束的手寫漢字識別和檢索方法,包括:(1)獲取從硬件記錄得到的手寫漢字坐標(biāo)點(diǎn)序列進(jìn)行預(yù)處理;(2)構(gòu)建基于多模態(tài)重建約束的特征提取模型,其中,特征提取模型包括嵌入層、特征提取層和特征優(yōu)化層;特征提取層基于多頭注意力機(jī)制,包含手寫漢字序列重建和手寫漢字圖像重建的多模態(tài)預(yù)訓(xùn)練任務(wù);特征提取模型在訓(xùn)練時(shí)采用不同的輔助特征提取模塊,包括輔助序列重建約束的線性模型和輔助圖像重建約束的UNet模型;(3)預(yù)訓(xùn)練結(jié)束后,使用特征提取模塊輸出的特征微調(diào)分類器;(4)利用特征提取模型和分類器進(jìn)行在線手寫漢字輸入的識別與檢索。本發(fā)明可以提升手寫漢字識別和檢索的準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明涉及序列和圖像識別及檢索領(lǐng)域,尤其是涉及一種基于多模態(tài)重建約束的手寫漢字識別和檢索方法。
背景技術(shù)
手寫漢字是中華民族數(shù)千年的文化結(jié)晶,是繼承和發(fā)展中華文化的載體。手寫漢字雖然具有高度簡潔和抽象的性質(zhì),但可以說明,使其在通信和設(shè)計(jì)等各種場景中都有用。因此,在計(jì)算機(jī)視覺和模式識別、計(jì)算機(jī)圖形學(xué)、人機(jī)交互、機(jī)器人學(xué)和認(rèn)知科學(xué)領(lǐng)域均有手寫漢字相關(guān)研究。
然而,手寫漢字序列與漢字的自然照片有著根本的不同。手寫漢字提供了一種特殊的數(shù)據(jù)模式。它的獨(dú)特之處在于,可以以多種表示形式存儲和處理手寫漢字,因?yàn)樗膩碓词莿討B(tài)的筆劃運(yùn)動。
近年來,由于觸摸屏設(shè)備(例如智能手機(jī)、平板電腦)的普及使得手寫漢字序列的獲取比以往任何時(shí)候都容易得多,工業(yè)界和學(xué)術(shù)界的手寫漢字研究和應(yīng)用都在蓬勃發(fā)展。一些經(jīng)典的研究主題,如手寫漢字識別和基于手寫漢字的圖像檢索已經(jīng)在深度學(xué)習(xí)環(huán)境中得到重新研究。
如公開號為CN115527214A的中國專利文獻(xiàn)公開了一種手寫漢字識別方法,包括:將待識別圖像輸入漢字識別融合模型中;基于多個(gè)不同的神經(jīng)網(wǎng)絡(luò),確定不同的神經(jīng)網(wǎng)絡(luò)對應(yīng)輸出的多個(gè)待識別手寫漢字的識別結(jié)果;基于所述多個(gè)待識別手寫漢字的識別結(jié)果,確定待識別手寫漢字的目標(biāo)識別結(jié)果。
公開號為CN114419629A的中國專利文獻(xiàn)公開了一種基于膠囊網(wǎng)絡(luò)模型的手寫漢字識別方法,方法首先從已知數(shù)據(jù)集中隨機(jī)抽取相同數(shù)量的樣本作為訓(xùn)練集和測試集,并將訓(xùn)練集和測試集中的樣本統(tǒng)一大小;然后搭建膠囊網(wǎng)絡(luò)模型,再輸入訓(xùn)練集樣本對膠囊網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練;接著輸入測試集樣本到訓(xùn)練好的膠囊網(wǎng)絡(luò)模型中,對模型的準(zhǔn)確率進(jìn)行測試;最后將手寫漢字輸入到測試完成的膠囊網(wǎng)絡(luò)模型中對漢字進(jìn)行識別,得到手寫漢字的識別結(jié)果。
目前的手寫漢字識別及檢索方法中,效率及準(zhǔn)確性均還有繼續(xù)提升的空間。在自然語言處理領(lǐng)域,涌現(xiàn)出了一類基于注意力機(jī)制的特征學(xué)習(xí)模型,稱為Transformer模型。Transformer模型給許多領(lǐng)域帶來了翻天覆地的變化。在自然語言處理和計(jì)算機(jī)視覺領(lǐng)域,幾乎所有目前性能最優(yōu)越的模型均基于Transformer模型。然而,在手寫漢字研究領(lǐng)域,尤其是手寫漢字的識別和基于手寫漢字的圖像檢索領(lǐng)域,鮮有人使用Transformer模型。Transformer模型在手寫漢字領(lǐng)域的應(yīng)用亟待研究。此外,基于多模態(tài)重建約束的模型訓(xùn)練方式還未在手寫漢字識別與檢索領(lǐng)域得到充分研究。
發(fā)明內(nèi)容
本發(fā)明提供了一種基于多模態(tài)重建約束的手寫漢字識別和檢索方法,可以顯著提升手寫漢字識別和檢索的準(zhǔn)確率。
一種基于多模態(tài)重建約束的手寫漢字識別和檢索方法,包括如下步驟:
(1)獲取從硬件記錄得到的手寫漢字坐標(biāo)點(diǎn)序列,對坐標(biāo)點(diǎn)序列進(jìn)行預(yù)處理后,劃分為訓(xùn)練集和驗(yàn)證集;
(2)構(gòu)建基于多模態(tài)重建約束的特征提取模型,其中,特征提取模型的結(jié)構(gòu)包括嵌入層、特征提取層和特征優(yōu)化層;
手寫漢字坐標(biāo)點(diǎn)序列輸入到三個(gè)嵌入層中,分別生成坐標(biāo)點(diǎn)嵌入、位置嵌入和筆畫嵌入,并將三種嵌入求和得到綜合嵌入,輸入特征提取層;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學(xué),未經(jīng)浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310275220.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 用于智能機(jī)器人系統(tǒng)多模態(tài)輸出的方法及裝置
- 一種基于深度學(xué)習(xí)的多模態(tài)醫(yī)學(xué)影像識別方法及裝置
- 一種基于多模態(tài)生成式對抗網(wǎng)絡(luò)的云圖分類方法
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 一種有監(jiān)督的快速離散多模態(tài)哈希檢索方法和系統(tǒng)
- 一種多模態(tài)數(shù)據(jù)處理方法及系統(tǒng)
- 一種基于多模態(tài)學(xué)習(xí)的電力攻擊識別方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應(yīng)用該系統(tǒng)的方法
- 一種基于門機(jī)制多模態(tài)融合的情感分析方法
- 面向?qū)捰蝻w行的多模態(tài)精確劃分方法





