[發(fā)明專利]基于運算符作用域和中心線的數(shù)學(xué)公式識別方法有效
| 申請?zhí)枺?/td> | 202011638890.0 | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN113139548B | 公開(公告)日: | 2022-05-06 |
| 發(fā)明(設(shè)計)人: | 黃勝;冉浩杉;賈艷秋;張琴 | 申請(專利權(quán))人: | 重慶郵電大學(xué) |
| 主分類號: | G06V30/148 | 分類號: | G06V30/148;G06V10/774;G06V10/82;G06K9/62;G06N3/04 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 400065*** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 運算 作用 中心線 數(shù)學(xué)公式 識別 方法 | ||
本發(fā)明提出了一種基于運算符和中心線的數(shù)學(xué)公式識別的方法,其主要思路為:對公式圖片進行切割;應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)(CNN)網(wǎng)絡(luò)結(jié)構(gòu)對字符圖片進行識別;充分利用公式中不同種類運算符作用域固定的特點將其分為三類,分別是分號、特殊運算符和二元運算符號,其中特殊運算符包括根號、求和符號、積分符號等大符號,這些運算符有多個作用域,先將這些作用域內(nèi)的子式判別出來并進行識別,將識別結(jié)果直接送入運算符的Latex語言表達式;然后基于字符在書寫時受四線格約束的情況,提出中心線的概念,將常見字符分類為向上類、向下類、全占類和中心類,依據(jù)字符的中心線類別不同計算閾值,判斷兩個字符之間的上下標(biāo)的位置關(guān)系。最終實現(xiàn)公式識別。
技術(shù)領(lǐng)域
本發(fā)明涉及多媒體信息處理方向、圖像識別的領(lǐng)域,具體涉及公式識別的技術(shù)領(lǐng)域。
背景技術(shù)
信息技術(shù)的發(fā)展改變了人們獲取信息的方式和途徑,人們越來越習(xí)慣獲取電子類信息。將實體圖片承載的信息電子化不僅能夠提高工作效率、節(jié)約時間,也能為科研工作者提供極大的便利。實現(xiàn)這一目標(biāo)主要應(yīng)用的技術(shù)是光學(xué)字符識別(OCR),是指利用光學(xué)電子設(shè)備如掃描儀或數(shù)碼相機等獲取圖片后,檢測圖片上的字符并且確定其形狀,然后用字符識別的方法將字符形狀轉(zhuǎn)換成計算機文字的過程。
OCR技術(shù)的應(yīng)用十分廣泛和常見,根據(jù)技術(shù)應(yīng)用場景的不同可以分為兩種,分別是自然場景文本識別和頁面文本識別。自然場景下OCR技術(shù)的應(yīng)用在我們的日常生活中隨處可見。車牌號識別、路標(biāo)識別都應(yīng)用了OCR技術(shù),同樣交通物流方面的信息化也得益于OCR技術(shù)的應(yīng)用。現(xiàn)代便利、安全和高效的生活與OCR技術(shù)在自然場景下識別文本的應(yīng)用息息相關(guān)。OCR技術(shù)識別頁面圖片在我們的生活中也有廣泛應(yīng)用。
書籍頁面圖片與自然環(huán)境下的圖片相比,背景干擾與噪聲相對較少,頁面目標(biāo)尺寸相對較小,像素特征不如自然環(huán)境下的目標(biāo)豐富。OCR技術(shù)實現(xiàn)頁面圖片識別,主要是實現(xiàn)將實體書籍或文檔轉(zhuǎn)換為電子檔書籍或文檔的工作,與文學(xué)作品類書籍不同,數(shù)學(xué)書籍的頁面目標(biāo)包括文本行、圖、表和數(shù)學(xué)公式等。在科研與教學(xué)活動中,數(shù)學(xué)書籍是主要的知識載體,實現(xiàn)數(shù)學(xué)書籍的電子化,意味著實現(xiàn)實體數(shù)學(xué)書籍的可編輯與重用,可以減少科研材料的重復(fù)編輯工作,提高工作效率,對于教學(xué)和科研具有重要的意義。數(shù)學(xué)公式作為書籍重要的頁面信息,其識別不僅要識別字符還要公式識別結(jié)構(gòu),一直以來都是頁面目標(biāo)識別的一個難點。
現(xiàn)有的公式識別主要分為兩種,分別是多步驟識別法和端到端識別方法。端到端方法將公式識別的問題轉(zhuǎn)換成機器翻譯中序列到序列的問題,應(yīng)用CNN對公式圖片提取特征,利用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)將提取到的特征進行解碼,再用注意力機制對進行權(quán)重分析學(xué)習(xí),最后利用光束搜索算法對標(biāo)簽進行匹配。這種方法訓(xùn)練困難,數(shù)據(jù)集要求較高,但是不需要進行圖片切割。
分多步識別數(shù)學(xué)公式的方法本質(zhì)的思想是分而治之,首先將公式圖片進行切割,得到單個字符圖片,應(yīng)用分類器識別字符種類,之后根據(jù)切割得到的字符圖片的位置坐標(biāo)和字符種類,設(shè)計規(guī)則算法實現(xiàn)數(shù)學(xué)公式結(jié)構(gòu)識別,最后將識別的結(jié)果輸出。現(xiàn)有實現(xiàn)公式圖片切割的方法有連通域法和投影法。投影法無法實現(xiàn)帶有根號的公式圖片的切割。連通域切割方法無法實現(xiàn)具有多個連通域的字符圖片如“=”“i”的切割,需要設(shè)計具體規(guī)則才能夠?qū)崿F(xiàn)多個連通域字符的切割。公式字符識別的方法主要有卷積網(wǎng)絡(luò)、多層感應(yīng)機和支持向量機(SVM)等方法。SVM方法需要手動設(shè)計提取的特征,計算復(fù)雜;多層感應(yīng)機的本質(zhì)是后向傳播網(wǎng)絡(luò),該網(wǎng)絡(luò)模型將輸入的圖片變?yōu)橐痪S向量,會損失字符圖片的特征。字符圖片具有種類多、尺寸小和像素信息少的特點,卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)更加適合用來識別字符圖片的種類。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶郵電大學(xué),未經(jīng)重慶郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011638890.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:衣物處理設(shè)備
- 下一篇:一種傳聲器裝置





