[發明專利]一種印刷體數學公式識別方法、裝置及存儲介質有效
| 申請號: | 202210935737.7 | 申請日: | 2022-08-05 |
| 公開(公告)號: | CN115063799B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 龍軍;洪泉;楊柳;王子冬 | 申請(專利權)人: | 中南大學 |
| 主分類號: | G06V30/10 | 分類號: | G06V30/10;G06N3/0464;G06V10/82;G06V30/148;G06V30/18 |
| 代理公司: | 長沙市融智專利事務所(普通合伙) 43114 | 代理人: | 胡喜舟 |
| 地址: | 410083 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 印刷體 數學公式 識別 方法 裝置 存儲 介質 | ||
1.一種印刷體數學公式識別方法,其特征在于,包括:
獲取印刷體數學公式圖片并進行預處理;
基于編碼器提取印刷體數學公式圖片的第一特征矩陣;
提取第一特征矩陣的上下文語義特征,得到第二特征矩陣;
使用相對位置編碼技術對第二特征矩陣進行相對位置編碼,得到第三特征矩陣;
將第三特征矩陣輸入解碼器中,得到數學公式的Latex格式序列;
所述提取第一特征矩陣的上下文語義特征,得到第二特征矩陣,具體包括:
將第一特征矩陣劃分為H'*W'個維度為A的向量Qi,其中i∈1...H'*W';
同時將Qi按照i=1,2,3...H'*W'-1,H'*W'的順序和i=H'*W',H'*W'-1...3,2,1的順序分別輸入雙向GRU模型,每階段雙向GRU模型輸出一個向量hj,其中hj的維度預設值為B;將得到的H'*W'個B維的向量拼接在一起并轉換為三維矩陣,最終得到三維矩陣
同時將Qi按照i=1,W'+1,2*W'+1...,(H'-1)*W',H'*W'的順序和i=H'*W',(H'-1)*W'...2*W'+1,W'+1,1的順序分別輸入雙向GRU模型,每階段雙向GRU模型輸出一個向量hk,其中hk的維度預設值為B;將得到的H'*W'個B維的向量拼接在一起并轉換為三維矩陣,最終得到三維矩陣
最后將和每一個相同位置的元素值進行相加,得到第二特征矩陣
所述使用相對位置編碼技術對第二特征矩陣進行相對位置編碼,得到第三特征矩陣,具體包括:
初始化生成一個與第二特征矩陣維度一致的矩陣P;
用P(i,x,y)代表矩陣P每個位置的元素值,同理V(2)(i,x,y)代表第二特征矩陣每個位置的元素值;則矩陣P的計算方法如下:
其中,a和b分別代表垂直縮放系數和水平縮放系數;
將經過位置編碼后得到的矩陣P和第二特征矩陣做矩陣加法,得到第三特征矩陣
2.根據權利要求1所述的印刷體數學公式識別方法,其特征在于,所述預處理過程包括:
裁剪出印刷體數學公式圖片的公式核心區域圖片。
3.根據權利要求2所述的印刷體數學公式識別方法,其特征在于,所述裁剪出印刷體數學公式圖片的公式核心區域圖片包括:
基于印刷體公式圖片建立直角坐標系;
根據印刷體公式圖片中像素點的灰度值確定公式核心區域的四個頂點坐標,基于四個頂點坐標裁剪出對應的公式核心區域圖片。
4.根據權利要求1所述的印刷體數學公式識別方法,其特征在于,所述編碼器基于殘差卷積神經網絡模型構建而成,用于提取印刷體數學公式圖片的第一特征矩陣
5.根據權利要求4所述的印刷體數學公式識別方法,其特征在于,所述編碼器為37層的殘差卷積神經網絡,其中conv_1采用64個7*7大小的卷積核,步長為1;池化層的窗口為2*2,步長為2;剩下36層卷積層中,所有卷積核均采用3*3大小卷積核,且步長為1;激活函數均采用Rule函數;剩下36層卷積層分為四種不同類型共計18個殘差塊,每個殘差塊內部由兩層卷積層構成,組成如下:Conv_2x中包括2個殘差塊,其內部卷積層的卷積核數目為64;Conv_3x中包括6個殘差塊,其內部卷積層的卷積核數目為128;Conv_4x中包括6個殘差塊,其內部卷積層的卷積核數目為256;Conv_5x中包括4個殘差塊,其內部卷積層的卷積核數目為512。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中南大學,未經中南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210935737.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種挖掘式耕地機
- 下一篇:松卷設備和鋁塑膜供給系統





