[發明專利]一種基于深度學習的手寫體數學表達式識別方法與裝置在審
| 申請號: | 201910896808.5 | 申請日: | 2019-09-20 |
| 公開(公告)號: | CN110766012A | 公開(公告)日: | 2020-02-07 |
| 發明(設計)人: | 單光存;王紅宇;文博 | 申請(專利權)人: | 北京航空航天大學;博恒科技(杭州)有限公司 |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34;G06K9/62;G06N3/04 |
| 代理公司: | 11021 中科專利商標代理有限責任公司 | 代理人: | 馬莉 |
| 地址: | 100083*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 編碼向量 數學表達式 編碼器 手寫體 二維 預處理 解碼器 注意力機制 解碼 二維結構 計算方式 圖片特征 網絡 解析 注意力 輸出 引入 圖片 學習 | ||
1.一種基于深度學習的手寫體數學表達式識別方法,其特征在于,包括:
S1,對含有手寫體數學表達式的圖片進行預處理,并輸入模型中;
S2,采用DenseNet網絡作為編碼器對輸入模型的圖片進行編碼,并將所述DenseNet網絡的輸出作為編碼向量;
S3,將所述編碼向量作為輸入,采用引入二維注意力機制的解碼器對所述編碼向量進行解碼。
2.根據權利要求1所述的手寫體數學表達式識別方法,其特征在于,所述步驟S3中,所述解碼器為具有二維注意力機制的循環神經網絡,其輸入包括步驟S2輸出的所述編碼向量Xwh、解碼器上一時刻輸出的LaTex字符C以及解碼器上一時刻的隱層H,其中,w為編碼向量的寬度,h為編碼向量的高度。
3.根據權利要求1所述的手寫體數學表達式識別方法,其特征在于,所述步驟S3包括:
S301,引入二維注意力機制,產生帶有注意力機制的編碼向量,其中,所述二維注意力機制的計算如下:
ewh=vT{f1[Emb(hi-1,ci-1)]×f2[Xwh]} (1)
其中,ewh表示二維注意力機制在寬為w,高為h的特征平面上每一特征點的關注度;Emb為Embedding操作,所述Embedding操作為一種將單一字符映射為一個維度固定的向量的操作,用于表示序列中不同字符之間的區別與聯系;hi-1為上一時刻的隱層H,ci-1為上一時刻輸出的LaTex字符C;f1、f2與vT分別表示兩個全連接層和一個隨機初始化矩陣,用于將不同緯度的向量映射為一個固定維度的向量;Xwh即編碼向量;αwh為歸一化后的權重參數;
通過式(2)進行歸一化操作,獲得二維注意力機制的權重,則該時間步下,編碼向量將變為:
Xwh′=αwh×Xwh (3)
其中,X’wh為帶有注意力機制的編碼向量;
S302,將該帶有注意力機制的編碼向量輸入解碼器,同時通過上一時刻的輸出字符及隱層向量,得到解碼輸出;其中,所述解碼器將對帶有注意力機制的編碼向量解碼時,解碼操作為:
outputi=soft max{D[f3(hi-1)+f4(ci-1)+f5(X′hw)]} (4)
其中,輸出outputi即為該時間步下模型預測的字符輸出;softmax表示非線性激活函數,用于將模型的計算輸出歸一化為所有輸出字符的概率系數,其中,概率系數最大的字符即為模型本步識別的預測輸出字符;D為Dropout層;f3、f4、f5均表示全連接層。
4.根據權利要求2或3所述的手寫體數學表達式識別方法,其特征在于,所述步驟S3中,規定所述上一時刻輸出的LaTex字符C的初始值為<sos>,即為序列的開始符號;規定所述上一時刻的隱層H的初始值為一個滿足Xavier分布的隨機初始化向量。
5.根據權利要求1所述的手寫體數學表達式識別方法,其特征在于,所述步驟S1中,所述預處理操作為對圖片隨機進行預定角度范圍的旋轉。
6.根據權利要求5所述的手寫體數學表達式識別方法,其特征在于,所述預定角度范圍為[-10°,-5°]或[5°,10°]。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學;博恒科技(杭州)有限公司,未經北京航空航天大學;博恒科技(杭州)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910896808.5/1.html,轉載請聲明來源鉆瓜專利網。





