[發(fā)明專(zhuān)利]一種柱狀圖數(shù)據(jù)提取和轉(zhuǎn)化方法在審
| 申請(qǐng)?zhí)枺?/td> | 202010979562.0 | 申請(qǐng)日: | 2020-09-17 |
| 公開(kāi)(公告)號(hào): | CN112101237A | 公開(kāi)(公告)日: | 2020-12-18 |
| 發(fā)明(設(shè)計(jì))人: | 王辰 | 申請(qǐng)(專(zhuān)利權(quán))人: | 新華智云科技有限公司 |
| 主分類(lèi)號(hào): | G06K9/00 | 分類(lèi)號(hào): | G06K9/00;G06K9/62;G06N3/04 |
| 代理公司: | 杭州裕陽(yáng)聯(lián)合專(zhuān)利代理有限公司 33289 | 代理人: | 田金霞 |
| 地址: | 310012 浙江省杭州市*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 柱狀圖 數(shù)據(jù) 提取 轉(zhuǎn)化 方法 | ||
本發(fā)明公開(kāi)了一種柱狀圖數(shù)據(jù)提取和轉(zhuǎn)化方法,所述方法包括如下步驟:獲取柱狀圖;采用目標(biāo)檢測(cè)模型識(shí)別柱狀圖中的文字、圖例位置;將識(shí)別的文字和圖例進(jìn)行分類(lèi),并采用文字識(shí)別模型識(shí)別文字,獲取文字含義;采用圖像轉(zhuǎn)文字模型識(shí)別柱狀圖中每一柱體的高度,并獲取每一柱體的高度數(shù)據(jù);將分類(lèi)后的文字、圖例以及高度數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)數(shù)據(jù)。所述數(shù)據(jù)提取方法采用深度卷積神經(jīng)網(wǎng)絡(luò)識(shí)別圖例信息,從而可以識(shí)別包括但不僅限于顏色、形狀、花紋等圖例信息,并且使得可識(shí)別的柱狀圖種類(lèi)更多,具有更廣泛的應(yīng)用。
發(fā)明領(lǐng)域
本發(fā)明涉及大數(shù)據(jù)處理領(lǐng)域,特別涉及一種柱狀圖數(shù)據(jù)提取和轉(zhuǎn)化方法。
背景技術(shù)
現(xiàn)有技術(shù)中,柱狀圖的數(shù)據(jù)提取方法通常采用Faster R-CNN模型和文字識(shí)別技術(shù)提取柱狀圖中的元素和文字,并且識(shí)別柱狀圖中不同顏色,根據(jù)不同顏色進(jìn)行柱狀圖信息和圖例匹配,傳統(tǒng)的柱狀圖數(shù)據(jù)提取方法采用Faster R-CNN模型識(shí)別圖例元素位置,并進(jìn)一步提取圖例元素?cái)?shù)據(jù)。需要說(shuō)明的是,當(dāng)柱狀圖的顏色圖例數(shù)量較大時(shí),傳統(tǒng)的技術(shù)方案效果較差,F(xiàn)aster R-CNN模型位置識(shí)別不準(zhǔn)確,從而容易導(dǎo)致數(shù)據(jù)提取的精度較差,匹配結(jié)果容易出現(xiàn)錯(cuò)誤,無(wú)法完全復(fù)原柱狀圖的信息。
發(fā)明內(nèi)容
本發(fā)明其中一個(gè)較佳實(shí)施例在于提供一種柱狀圖數(shù)據(jù)提取和轉(zhuǎn)化方法,所述數(shù)據(jù)提取和轉(zhuǎn)化方法采用image-to-text技術(shù),即圖像轉(zhuǎn)文字技術(shù)對(duì)柱狀圖中的文字進(jìn)行識(shí)別,并對(duì)識(shí)別的文字根據(jù)其屬性進(jìn)行分類(lèi)處理,提取柱狀圖的數(shù)據(jù)后將柱狀圖數(shù)據(jù)轉(zhuǎn)化為所需的結(jié)構(gòu)數(shù)據(jù),可提高圖例匹配的準(zhǔn)確度,提高柱狀圖的轉(zhuǎn)化效果。
本發(fā)明另一個(gè)較佳實(shí)施例在于提供一種柱狀圖數(shù)據(jù)提取和轉(zhuǎn)化方法,所述數(shù)據(jù)提取和轉(zhuǎn)化方法采用深度卷積神經(jīng)網(wǎng)絡(luò)識(shí)別圖例信息,從而可以識(shí)別包括但不僅限于顏色、形狀、花紋等圖例信息,并且使得可識(shí)別的柱狀圖種類(lèi)更多,具有更廣泛的應(yīng)用。
本發(fā)明另一個(gè)較佳實(shí)施例在于提供一種柱狀圖數(shù)據(jù)提取和轉(zhuǎn)化方法,所述數(shù)據(jù)提取和轉(zhuǎn)化方法采用訓(xùn)練好的目標(biāo)檢測(cè)模型,檢測(cè)柱狀圖中的圖例和文字對(duì)應(yīng)的位置,并識(shí)別柱狀圖的橫坐標(biāo)、縱坐標(biāo)、標(biāo)題和圖例解釋?zhuān)捎冒ǖ粌H限于cascade-RCNN的目標(biāo)檢測(cè)模型可精準(zhǔn)識(shí)別柱狀圖中元素和對(duì)應(yīng)的位置,從而可以實(shí)現(xiàn)精確的數(shù)據(jù)匹配和轉(zhuǎn)化。
本發(fā)明另一個(gè)較佳實(shí)施例在于提供一種柱狀圖數(shù)據(jù)提取和轉(zhuǎn)化方法,所述數(shù)據(jù)提取和轉(zhuǎn)化方法可通過(guò)所述目標(biāo)檢測(cè)模型識(shí)別每個(gè)圖例的高度信息,在完成高度信息檢測(cè)后可進(jìn)一步轉(zhuǎn)化為縱坐標(biāo)數(shù)據(jù),可提高數(shù)據(jù)轉(zhuǎn)化的效率和精度。
為了實(shí)現(xiàn)至少一個(gè)上述發(fā)明目的,本發(fā)明進(jìn)一步提供一種柱狀圖數(shù)據(jù)提取和轉(zhuǎn)化方法,所述方法包括如下步驟:
獲取柱狀圖;
采用目標(biāo)檢測(cè)模型識(shí)別柱狀圖中的文字、圖例位置;
將識(shí)別的文字和圖例進(jìn)行分類(lèi),并采用文字識(shí)別模型識(shí)別文字,獲取文字含義;
采用圖像轉(zhuǎn)文字模型識(shí)別柱狀圖中每一柱體的高度,并獲取每一柱體的高度數(shù)據(jù);
將分類(lèi)后的文字、圖例以及高度數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)數(shù)據(jù)。
根據(jù)本發(fā)明其中一個(gè)較佳實(shí)施例,將所述目標(biāo)檢測(cè)模型識(shí)別的文字和圖例分類(lèi)形成橫坐標(biāo)、縱坐標(biāo)、標(biāo)題、圖例解釋?zhuān)梦淖肿R(shí)別模型識(shí)別柱狀圖中的文字信息。
根據(jù)本發(fā)明另一個(gè)較佳實(shí)施例,將識(shí)別的文字和圖例進(jìn)行分類(lèi)包括如下步驟:識(shí)別圖例的個(gè)數(shù),并識(shí)別圖例中的圖例文字和圖例元素,將每個(gè)圖例元素和對(duì)應(yīng)的圖例文字相匹配并存儲(chǔ)。
根據(jù)本發(fā)明另一個(gè)較佳實(shí)施例,獲取柱狀圖中所有圖例的圖例元素,采用圖像轉(zhuǎn)文字識(shí)別每一圖例元素在柱狀圖中的位置,以及識(shí)別每一圖例對(duì)應(yīng)的橫坐標(biāo)信息,將圖例元素和所述柱狀圖依次輸入所述圖像轉(zhuǎn)文字模型,獲取每一柱體的高度信息。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于新華智云科技有限公司,未經(jīng)新華智云科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010979562.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 信號(hào)檢測(cè)方法、信號(hào)檢測(cè)系統(tǒng)、信號(hào)檢測(cè)處理程序及記錄該程序的記錄介質(zhì)
- 一種鉆孔柱狀圖信息批量提取方法
- 基于微信小程序的柱狀圖圖表插件系統(tǒng)及其實(shí)現(xiàn)方法
- 智能鎖日志的分析方法、終端及可讀存儲(chǔ)介質(zhì)
- 柱狀圖識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種經(jīng)濟(jì)管理模擬教學(xué)器
- 一種柱狀圖顯示方法、終端及存儲(chǔ)介質(zhì)
- 純文本柱狀圖的繪制方法
- 柱狀圖展示板
- 一種針對(duì)錳礦的可變比例尺鉆孔柱狀圖繪制方法
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





