[發(fā)明專利]公式主體定位方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 201811611964.4 | 申請(qǐng)日: | 2018-12-27 |
| 公開(公告)號(hào): | CN111400491A | 公開(公告)日: | 2020-07-10 |
| 發(fā)明(設(shè)計(jì))人: | 陳一帆;顏欽欽;高良才;湯幟 | 申請(qǐng)(專利權(quán))人: | 北大方正集團(tuán)有限公司;北大方正信息產(chǎn)業(yè)集團(tuán)有限公司;北京大學(xué) |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F40/131 |
| 代理公司: | 北京同立鈞成知識(shí)產(chǎn)權(quán)代理有限公司 11205 | 代理人: | 張子青;劉芳 |
| 地址: | 100871 北京市海*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 公式 主體 定位 方法 裝置 設(shè)備 計(jì)算機(jī) 可讀 存儲(chǔ) 介質(zhì) | ||
本發(fā)明提供一種公式主體定位方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),方法包括:獲取初步定位獲得的公式整體數(shù)據(jù);對(duì)所述公式整體數(shù)據(jù)進(jìn)行分割,獲得至少一行公式行數(shù)據(jù);針對(duì)每一行公式行數(shù)據(jù),對(duì)所述公式行數(shù)據(jù)進(jìn)行聚類操作,獲得至少一個(gè)待選公式主體;去除所述待選公式主體中的非公式主體信息,獲得所述公式主體。從而能夠精準(zhǔn)地定位到公式主體信息,噪聲較低,便于后續(xù)的檢索、識(shí)別操作。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)字出版領(lǐng)域,尤其涉及一種公式主體定位方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù)
現(xiàn)有的電子文檔中一般除了文本以外,還包括公式等內(nèi)容,因此,在對(duì)電子文檔進(jìn)行處理的過程中,還需要對(duì)電子文檔中的公式進(jìn)行定位以及識(shí)別。
現(xiàn)有的公式識(shí)別方法一般都是對(duì)電子文檔進(jìn)行識(shí)別,確定公式所在的位置,對(duì)該位置的公式進(jìn)行整體定位。
但是,對(duì)于電子文檔中的公式而言,由于在布局上存在條件、分段、二維、嵌套等關(guān)系,因此,采用上述定位方法定位效果欠佳。舉例來說,大量文獻(xiàn)中的公式帶有后續(xù)處理無用的符號(hào)信息;而對(duì)于多行公式或者方程組公式,整體定位結(jié)果不易于檢索;對(duì)于內(nèi)嵌公式來說,定位結(jié)果中往往包含上下文信息;一些復(fù)雜文檔中存在圖表形式的偽公式,因此,針對(duì)上述情況來說,采用整體定位公式的方法獲得的公式中往往包含較多的噪聲。
發(fā)明內(nèi)容
本發(fā)明提供一種公式主體定位方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),用于解決現(xiàn)有的公式識(shí)別方法定位效果欠佳,獲得的公式中往往包含較多的噪聲的技術(shù)問題。
本發(fā)明的第一個(gè)方面是提供一種公式主體定位方法,包括:
獲取初步定位獲得的公式整體數(shù)據(jù);
對(duì)所述公式整體數(shù)據(jù)進(jìn)行分割,獲得至少一行公式行數(shù)據(jù);
針對(duì)每一行公式行數(shù)據(jù),對(duì)所述公式行數(shù)據(jù)進(jìn)行聚類操作,獲得至少一個(gè)待選公式主體;
去除所述待選公式主體中的非公式主體信息,獲得所述公式主體。
本發(fā)明的另一個(gè)方面是提供一種公式主體定位裝置,包括:
獲取模塊,用于獲取初步定位獲得的公式整體數(shù)據(jù);
分割模塊,用于對(duì)所述公式整體數(shù)據(jù)進(jìn)行分割,獲得至少一行公式行數(shù)據(jù);
聚類模塊,用于針對(duì)每一行公式行數(shù)據(jù),對(duì)所述公式行數(shù)據(jù)進(jìn)行聚類操作,獲得至少一個(gè)待選公式主體;
去除模塊,用于去除所述待選公式主體中的非公式主體信息,獲得所述公式主體。
本發(fā)明的又一個(gè)方面是提供一種公式主體定位設(shè)備,包括:存儲(chǔ)器,處理器;
存儲(chǔ)器;用于存儲(chǔ)所述處理器可執(zhí)行指令的存儲(chǔ)器;
其中,所述處理器被配置為由所述處理器執(zhí)行如上述的公式主體定位方法。
本發(fā)明的又一個(gè)方面是提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)執(zhí)行指令,所述計(jì)算機(jī)執(zhí)行指令被處理器執(zhí)行時(shí)用于實(shí)現(xiàn)如上述的公式主體定位方法。
本發(fā)明提供的公式主體定位方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),通過獲取初步定位獲得的公式整體數(shù)據(jù);對(duì)所述公式整體數(shù)據(jù)進(jìn)行分割,獲得至少一行公式行數(shù)據(jù);針對(duì)每一行公式行數(shù)據(jù),對(duì)所述公式行數(shù)據(jù)進(jìn)行聚類操作,獲得至少一個(gè)待選公式主體;去除所述待選公式主體中的非公式主體信息,獲得所述公式主體。從而能夠精準(zhǔn)地定位到公式主體信息,噪聲較低,便于后續(xù)的檢索、識(shí)別操作。
附圖說明
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北大方正集團(tuán)有限公司;北大方正信息產(chǎn)業(yè)集團(tuán)有限公司;北京大學(xué),未經(jīng)北大方正集團(tuán)有限公司;北大方正信息產(chǎn)業(yè)集團(tuán)有限公司;北京大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811611964.4/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





