[發(fā)明專利]統(tǒng)計(jì)圖的數(shù)據(jù)提取方法、電子設(shè)備和存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202110434064.2 | 申請(qǐng)日: | 2021-04-22 |
| 公開(公告)號(hào): | CN113095267B | 公開(公告)日: | 2022-09-27 |
| 發(fā)明(設(shè)計(jì))人: | 王小鳳;張浩波 | 申請(qǐng)(專利權(quán))人: | 上海攜寧計(jì)算機(jī)科技股份有限公司 |
| 主分類號(hào): | G06V30/413 | 分類號(hào): | G06V30/413;G06V20/62;G06V30/28 |
| 代理公司: | 上海晨皓知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 31260 | 代理人: | 成麗杰 |
| 地址: | 200030 上*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 統(tǒng)計(jì)圖 數(shù)據(jù) 提取 方法 電子設(shè)備 存儲(chǔ) 介質(zhì) | ||
本發(fā)明實(shí)施例涉及信息處理領(lǐng)域,公開了一種統(tǒng)計(jì)圖的數(shù)據(jù)提取方法、電子設(shè)備和存儲(chǔ)介質(zhì),包括:利用語義分割模型對(duì)含有統(tǒng)計(jì)圖的目標(biāo)圖像按照統(tǒng)計(jì)圖類型進(jìn)行圖層分離,獲取若干圖層并確定每個(gè)圖層對(duì)應(yīng)的統(tǒng)計(jì)圖類型,其中,圖層為僅含有統(tǒng)計(jì)圖形的二值圖像;獲取圖層中的統(tǒng)計(jì)圖形的關(guān)鍵點(diǎn)位置信息;利用預(yù)設(shè)的篩選條件,確定目標(biāo)圖像中的坐標(biāo)軸和刻度信息;利用預(yù)設(shè)的標(biāo)簽篩選條件,從目標(biāo)圖像利用模型識(shí)別出的文本信息中確定坐標(biāo)軸標(biāo)簽;根據(jù)關(guān)鍵點(diǎn)位置信息、坐標(biāo)軸、刻度信息和坐標(biāo)軸標(biāo)簽確定每個(gè)統(tǒng)計(jì)圖形表示的統(tǒng)計(jì)數(shù)據(jù)并生成結(jié)構(gòu)數(shù)據(jù)。通過本發(fā)明的方案能夠?qū)崿F(xiàn)對(duì)統(tǒng)計(jì)圖數(shù)據(jù)的準(zhǔn)確、完整、有效和快速提取。
技術(shù)領(lǐng)域
本發(fā)明實(shí)施例涉及信息處理領(lǐng)域,特別涉及一種統(tǒng)計(jì)圖的數(shù)據(jù)提取方法、電子設(shè)備和存儲(chǔ)介質(zhì)。
背景技術(shù)
統(tǒng)計(jì)圖能夠直觀地展現(xiàn)出統(tǒng)計(jì)數(shù)據(jù),但用戶也存在對(duì)統(tǒng)計(jì)圖中的數(shù)據(jù)等信息進(jìn)行提取的需求,從而在后續(xù)進(jìn)行數(shù)據(jù)整合等處理。但是,在統(tǒng)計(jì)圖不能編輯的情況下,如可攜帶文檔格式(Portable Document Format,PDF)文件中的統(tǒng)計(jì)圖、網(wǎng)頁中下載的含統(tǒng)計(jì)圖的圖片等,統(tǒng)計(jì)圖中的數(shù)據(jù)不能直接被導(dǎo)出,此時(shí),就需要對(duì)統(tǒng)計(jì)圖進(jìn)一步進(jìn)行處理。目前,常用的提取方法通常從以下兩個(gè)方面進(jìn)行考慮:一是利用多種模型從不同方面對(duì)統(tǒng)計(jì)圖進(jìn)行處理,分別提取出統(tǒng)計(jì)圖中的統(tǒng)計(jì)數(shù)據(jù)、尺度、注釋等信息;二是將文件轉(zhuǎn)化為可縮放的矢量圖形(Scalable Vector Graphics,SVG)格式后,基于SVG格式的文件設(shè)置多種提取規(guī)則進(jìn)行數(shù)據(jù)提取。
然而,模型和規(guī)則都具有各自的優(yōu)缺點(diǎn),上述兩種方法僅使用模型或者僅使用規(guī)則,非常單一,不能充分利用和結(jié)合模型各自的優(yōu)點(diǎn),從而不能最大程度地保證提取數(shù)據(jù)的速度和準(zhǔn)確性。尤其是,利用模型進(jìn)行提取時(shí),提取結(jié)果的精度取決于模型的精度,而模型容易受到干擾信息的影響導(dǎo)致結(jié)果不準(zhǔn)確,并且為了保證模型的精度,相應(yīng)地需要使用大量的語料數(shù)據(jù)來訓(xùn)練模型,而語料數(shù)據(jù)需要人工標(biāo)注特征,也就是說需要浪費(fèi)大量的人力資源來保證模型具有一定的精度;而與可移植網(wǎng)絡(luò)圖形格式(Portable Network GraphicFormat,PNG)等格式的統(tǒng)計(jì)圖相比,SVG格式的統(tǒng)計(jì)圖清晰度更低且不能準(zhǔn)確地描述字符的位置,即轉(zhuǎn)化為SVG格式會(huì)降低統(tǒng)計(jì)圖的精度,從而降低提取數(shù)據(jù)的精度,特別地,SVG格式下的統(tǒng)計(jì)圖并且實(shí)際中存在大量的統(tǒng)計(jì)圖來源于PDF文件,當(dāng)統(tǒng)計(jì)圖以圖片的格式,如PNG圖片,存在于PDF文件中時(shí),在轉(zhuǎn)換成SVG格式后統(tǒng)計(jì)圖在文件中以超鏈接的形式存在,可識(shí)別性差,若SVG格式的文件中不能被識(shí)別,更無法進(jìn)行數(shù)據(jù)提取。
發(fā)明內(nèi)容
本發(fā)明實(shí)施方式的目的在于提供一種統(tǒng)計(jì)圖的數(shù)據(jù)提取方法、電子設(shè)備和存儲(chǔ)介質(zhì),在不需要格式轉(zhuǎn)換的情況下,準(zhǔn)確、快速地提取出統(tǒng)計(jì)圖中的統(tǒng)計(jì)數(shù)據(jù),并同時(shí)提取能夠輔助理解統(tǒng)計(jì)數(shù)據(jù)的其他信息,使得提取的信息更加完整、有效。
為解決上述技術(shù)問題,本發(fā)明的實(shí)施例提供了一種統(tǒng)計(jì)圖的數(shù)據(jù)提取方法,包括:利用語義分割模型對(duì)含有統(tǒng)計(jì)圖的目標(biāo)圖像按照統(tǒng)計(jì)圖類型進(jìn)行圖層分離,獲取若干圖層并確定每個(gè)所述圖層對(duì)應(yīng)的所述統(tǒng)計(jì)圖類型,其中,所述圖層為僅含有統(tǒng)計(jì)圖形的二值圖像;獲取所述圖層中的所述統(tǒng)計(jì)圖形的關(guān)鍵點(diǎn)位置信息;利用預(yù)設(shè)的篩選條件,確定所述目標(biāo)圖像中的坐標(biāo)軸、刻度信息;利用預(yù)設(shè)的標(biāo)簽篩選條件,從所述目標(biāo)圖像利用模型識(shí)別出的文本信息中確定坐標(biāo)軸標(biāo)簽;根據(jù)所述關(guān)鍵點(diǎn)位置信息、所述坐標(biāo)軸、所述刻度信息和所述坐標(biāo)軸標(biāo)簽確定每個(gè)所述統(tǒng)計(jì)圖形表示的統(tǒng)計(jì)數(shù)據(jù)并生成結(jié)構(gòu)數(shù)據(jù)。
本發(fā)明的實(shí)施例還提供了一種電子設(shè)備,包括:
至少一個(gè)處理器;以及,
與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,
所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令,所述指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行以上所述的統(tǒng)計(jì)圖的數(shù)據(jù)提取方法。
本發(fā)明的實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)以上所述的統(tǒng)計(jì)圖的數(shù)據(jù)提取方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海攜寧計(jì)算機(jī)科技股份有限公司,未經(jīng)上海攜寧計(jì)算機(jī)科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110434064.2/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)統(tǒng)計(jì)圖動(dòng)態(tài)顯示系統(tǒng)及其數(shù)據(jù)統(tǒng)計(jì)圖動(dòng)態(tài)顯示方法
- 折線統(tǒng)計(jì)圖
- 細(xì)胞分析裝置和細(xì)胞分析方法
- 在終端屏幕上顯示統(tǒng)計(jì)圖的方法及其裝置
- 統(tǒng)計(jì)圖生成和顯示的方法、客戶端、統(tǒng)計(jì)圖生成端和系統(tǒng)
- 一種用于財(cái)務(wù)管理案例研討用便捷式實(shí)體統(tǒng)計(jì)圖
- 一種基于數(shù)據(jù)可視化的工業(yè)設(shè)備管理與統(tǒng)計(jì)報(bào)表系統(tǒng)
- 一種投資理財(cái)教學(xué)教具
- 一種基于數(shù)據(jù)庫數(shù)據(jù)生成統(tǒng)計(jì)圖的方法
- 統(tǒng)計(jì)圖的數(shù)據(jù)提取方法、電子設(shè)備和存儲(chǔ)介質(zhì)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





