[發(fā)明專利]一種融合雙向視覺注意力機(jī)制的數(shù)學(xué)公式識(shí)別方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201911295399.X | 申請(qǐng)日: | 2019-12-16 |
| 公開(公告)號(hào): | CN111126221B | 公開(公告)日: | 2023-09-26 |
| 發(fā)明(設(shè)計(jì))人: | 張婷;何彬;余新國;陳治平;曾致中;孫超 | 申請(qǐng)(專利權(quán))人: | 華中師范大學(xué) |
| 主分類號(hào): | G06V30/40 | 分類號(hào): | G06V30/40;G06V30/146;G06V10/82;G06N3/0464;G06N3/0442 |
| 代理公司: | 武漢東喻專利代理事務(wù)所(普通合伙) 42224 | 代理人: | 雷霄 |
| 地址: | 430079 湖*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 融合 雙向 視覺 注意力 機(jī)制 數(shù)學(xué)公式 識(shí)別 方法 裝置 | ||
本發(fā)明公開了一種融合雙向視覺注意力機(jī)制的數(shù)學(xué)公式識(shí)別方法及裝置。該方法包括:接收輸入的數(shù)學(xué)公式圖像,提取數(shù)學(xué)符號(hào)區(qū)域并獲取每個(gè)所述數(shù)學(xué)符號(hào)區(qū)域的特征作為自下而上信息;構(gòu)建標(biāo)記語言的條件語言模型,預(yù)測(cè)每個(gè)輸出數(shù)學(xué)符號(hào)的條件概率分布,獲取所述條件語言模型的時(shí)刻狀態(tài),將所述條件語言模型的時(shí)刻狀態(tài)聯(lián)合已輸出的數(shù)學(xué)符號(hào)共同組成了自上而下信息;構(gòu)建融合雙向視覺注意力機(jī)制的注意力模型,融合自下而上和自上而下的雙向信息預(yù)測(cè)注意力分布。本發(fā)明可以有效利用多粒度視覺信息的問題,從而提高數(shù)學(xué)公式識(shí)別的準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)學(xué)公式識(shí)別技術(shù)領(lǐng)域,更具體地,涉及一種融合雙向視覺注意力機(jī)制的數(shù)學(xué)公式識(shí)別方法及裝置。
背景技術(shù)
脫機(jī)數(shù)學(xué)公式識(shí)別是指從包含數(shù)學(xué)公式的圖像中識(shí)別出數(shù)學(xué)公式,具有十分重要的應(yīng)用,在電子文檔的編輯和檢索等領(lǐng)域中都需要能夠自動(dòng)識(shí)別數(shù)學(xué)公式。數(shù)學(xué)公式的研究開始于19世紀(jì)60年代,在接下來的近30年間,僅有少量的研究成果發(fā)表。直至90年代,隨著觸摸屏設(shè)備的大規(guī)模發(fā)展,該研究領(lǐng)域開始活躍起來,得到了更多研究者的關(guān)注,產(chǎn)出了豐富的研究成果。數(shù)學(xué)公式理解包含三項(xiàng)相互依賴的任務(wù):(1)符號(hào)分割,該項(xiàng)任務(wù)是指將屬于同一個(gè)符號(hào)的筆畫分為一組;(2)符號(hào)識(shí)別,是指賦予每個(gè)符號(hào)一個(gè)特定的符號(hào)類別;(3)結(jié)構(gòu)分析,其目標(biāo)是理解符號(hào)之間的空間關(guān)系,并借助于語法以產(chǎn)生一個(gè)正確的數(shù)學(xué)解釋。以上三項(xiàng)任務(wù)可以按順序依次完成,也可以聯(lián)合起來整體解決。傳統(tǒng)的解決方案分為兩類:順序解決方案和集成解決方案。
順序解決方案。在數(shù)學(xué)公式理解研究的早期階段,研究者們提出的方法大多屬于順序解決方案類。此類方案將公式理解問題視為流水線過程,首先進(jìn)行符號(hào)分割和識(shí)別,然后進(jìn)行結(jié)構(gòu)分析。順序解決方案存在一個(gè)明顯的缺陷,即在符號(hào)分割和識(shí)別階段產(chǎn)生的誤差會(huì)被傳播到結(jié)構(gòu)分析階段。也就是說,在此類順序解決方案中,符號(hào)識(shí)別與結(jié)構(gòu)分析被假設(shè)為獨(dú)立的任務(wù)。但是,該假設(shè)與實(shí)際情況是相矛盾的。數(shù)學(xué)公式識(shí)別中的三個(gè)任務(wù)之間是相互依賴的關(guān)系,例如人們?cè)谧R(shí)別數(shù)學(xué)符號(hào)時(shí)會(huì)借助公式的結(jié)構(gòu)信息,反之亦然。
集成解決方案。考慮到三個(gè)任務(wù)之間的依賴關(guān)系,研究者們開始轉(zhuǎn)向研究集成解決方案。集成方法的核心在于執(zhí)行符號(hào)分割的同時(shí)生成數(shù)學(xué)公式的結(jié)構(gòu),具體技術(shù)路線是提出多種符號(hào)分割和識(shí)別結(jié)果的假設(shè),然后使用結(jié)構(gòu)分析算法從中選擇最優(yōu)的一組假設(shè)生成公式的結(jié)構(gòu)。此類方案利用上下文信息來引導(dǎo)符號(hào)的分割和識(shí)別,從而避免生成不符合語法規(guī)則的數(shù)學(xué)公式,例如“[a+b)”。關(guān)于如何引入上下文信息,提出的方法主要分為串語法解析技術(shù)和圖語法解析技術(shù)兩種。然而無論是串語法技術(shù)還是圖語法技術(shù),都需要針對(duì)不同的數(shù)據(jù)集人工設(shè)計(jì)大量的語法產(chǎn)生式;另外語法解析算法的時(shí)間復(fù)雜度較高。
基于端到端可訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的解決方案。為了避開集成解決方案中的人工設(shè)計(jì)語法規(guī)則和復(fù)雜的語法解析過程,也得益于深度學(xué)習(xí)技術(shù)的研究進(jìn)展,近兩年研究人員提出了一些基于深度學(xué)習(xí)的數(shù)學(xué)公式識(shí)別方法。上述文獻(xiàn)中提出的方法都是基于編碼解碼模型,將輸入的圖像通過編碼器進(jìn)行編碼,隨后利用帶有注意力機(jī)制的解碼器對(duì)編碼后的特征反編譯生成數(shù)學(xué)公式的相應(yīng)標(biāo)記語言——LATEX。現(xiàn)有的端到端可訓(xùn)練模型,針對(duì)數(shù)學(xué)公式,實(shí)現(xiàn)了從圖像到標(biāo)記語言的直接轉(zhuǎn)化,并取得了已公開的最好的實(shí)驗(yàn)結(jié)果。經(jīng)對(duì)已有的方法梳理分析得知,模型中所引入的視覺注意力機(jī)制都隸屬于自上而下機(jī)制。此類基于自上而下注意力機(jī)制的方法采用與具體視覺任務(wù)相關(guān)的上下文來預(yù)測(cè)注意力在大小一致的多個(gè)圖像區(qū)域上的分布。之后根據(jù)預(yù)測(cè)得到的注意力分布,將多個(gè)圖像區(qū)域的特征進(jìn)行加權(quán)平均,生成當(dāng)前時(shí)刻被關(guān)注區(qū)域的特征向量。換言之,在自上而下類范式中,注意力的分布預(yù)測(cè)是基于統(tǒng)一大小的網(wǎng)格,而網(wǎng)格大小的設(shè)定實(shí)際上是在視覺信息的粗細(xì)粒度級(jí)別之間做平衡。由于數(shù)學(xué)符號(hào)的尺度變化多樣,圖像中的多粒度的視覺信息對(duì)數(shù)學(xué)公式的正確理解非常重要,單一尺度的注意力模型不能做到有效利用多個(gè)粒度的視覺信息。為了解決上述問題,研究者提出了分層的注意力模型和多尺度注意力模型等,這類模型同時(shí)提取粗粒度和細(xì)粒度兩個(gè)粒度的視覺特征。但是分層或多尺度的注意力模型只能利用兩個(gè)或幾個(gè)固定粒度的信息,這種方法只能緩解,并不能夠從根本上解決我們面臨的問題,即有效利用所有粒度層次的視覺信息。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華中師范大學(xué),未經(jīng)華中師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911295399.X/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 雙向無線電能監(jiān)控系統(tǒng)
- 雙向無線電能監(jiān)控系統(tǒng)
- 電動(dòng)車電機(jī)自動(dòng)變速器雙向驅(qū)動(dòng)盤
- 電動(dòng)車電機(jī)自動(dòng)變速器雙向驅(qū)動(dòng)盤
- 一種沖床離合制動(dòng)器機(jī)構(gòu)
- 一種沖床離合制動(dòng)器機(jī)構(gòu)
- 雙向多步DeBruijn圖的自環(huán)雙向邊識(shí)別與去除方法
- 雙向調(diào)節(jié)機(jī)構(gòu)
- 基于HVDC網(wǎng)絡(luò)與AC環(huán)網(wǎng)的分布式發(fā)電系統(tǒng)
- 一種矩形板回彈曲率的建模方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于粒子濾波視覺注意力模型的運(yùn)動(dòng)目標(biāo)檢測(cè)方法
- 一種評(píng)測(cè)注意力狀態(tài)的方法及裝置
- 注意力測(cè)評(píng)方法、系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 兒童注意力評(píng)估系統(tǒng)及其方法
- 一種注意力檢測(cè)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種注意力識(shí)別方法和裝置
- 一種可靠的用戶注意力監(jiān)測(cè)估計(jì)表示模型
- 注意力特征圖獲取方法及裝置、目標(biāo)檢測(cè)的方法及裝置
- 基于通道增強(qiáng)的雙注意力生成對(duì)抗網(wǎng)絡(luò)及圖像生成方法
- 一種文本情感分析模型的優(yōu)化方法及裝置





