[發明專利]一種圖中數據的自動提取方法有效
| 申請號: | 201910972334.8 | 申請日: | 2019-10-14 |
| 公開(公告)號: | CN110909732B | 公開(公告)日: | 2022-03-25 |
| 發明(設計)人: | 姚金良;俞月倫;胡創 | 申請(專利權)人: | 杭州電子科技大學上虞科學與工程研究院有限公司 |
| 主分類號: | G06V20/62 | 分類號: | G06V20/62;G06V10/26;G06V10/30;G06V30/10 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 傅朝棟;張法高 |
| 地址: | 312399 浙江省紹興市上虞區曹娥*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 自動 提取 方法 | ||
1.一種圖中數據的自動提取方法,用于對柱狀或折線形式數據圖中的元素數據進行提取,其特征在于,步驟如下:
S1:按照S11~S15的步驟,進行數據圖中文本區域定位與文本框分類:
S11:獲取待提取數據的數據圖,采用深度學習方法來定位數據圖中的所有文本框,并進行字符識別;
S12:統計數據圖中每個X方向位置上存在的文本框的個數,得到一個X方向不同位置上文本框個數的數組;然后獲取該數組中文本框個數的局部最大值和對應位置;接著比對該數組中X方向中間區域的平均文本框個數與所述局部最大值的差別,若在閾值范圍內則認為局部最大值的對應位置存在Y軸刻度值文本框;最后,根據局部最大值的對應位置將該位置的所有文本框初步確認為Y軸刻度值文本框,得到Y軸刻度值文本框列表;
S13:以文本框間隔距離為過濾條件,采用噪聲數據過濾方法對所述Y軸刻度值文本框列表進行文本框間隔距離的一致性判別,去除不滿足間隔距離一致性要求的文本框;
S14:采用S12和S13的方法,同理獲得X軸刻度值文本框列表;
S15:根據圖題文本框的尺寸特征以及在數據圖的位置分布特征,識別出圖題文本框中的圖題文字;
S2:按照S21~S22的步驟,對數據圖中的坐標軸以及對坐標軸上的刻度標記位置進行定位:
S21:對數據圖進行坐標軸定位,定位方法為:
首先,分別計算數據圖的水平梯度和垂直梯度,根據水平梯度結果以及垂直梯度結果分別確定垂直和水平邊緣像素;
然后統計每列連續的邊緣像素數以及每行連續的邊緣像素數,將連續的邊緣像素數超過設定閾值的邊緣像素列確定為候選Y坐標軸,將連續的邊緣像素數超過設定閾值的邊緣像素行確定為候選X坐標軸;
再后,合并行間距或列間距小于距離閾值的相鄰候選坐標軸;
最后,根據候選坐標軸的位置與候選坐標軸刻度值文本框列表的位置關系,確定坐標軸和坐標軸刻度值文本框列表;
S22:依次對X坐標軸和Y坐標軸的刻度標記位置定位,每條坐標軸上的定位方法為:
首先,以坐標軸為中心截取坐標軸區域圖像,區域圖像在垂直坐標軸方向的寬度應當覆蓋整條坐標軸以及坐標軸上的刻度標記;然后對坐標軸區域圖像進行二值化,將坐標軸以及坐標軸上的刻度標記為前景;接著對二值化圖像在垂直坐標軸的方向上進行逐行或逐列的前景像素計數;然后對計數得到的數組求得局部極大值作為候選刻度標記的位置;最后,采用所述的噪聲數據過濾方法對獲得的候選刻度標記位置進行過濾,得到每條坐標軸上實際的刻度標記;
S3:按照S31~S36的步驟,對數據圖中的圖例進行定位與信息提取:
S31:通過計算相鄰像素顏色值的距離進行連通分量分析,找到數據圖中所有顏色相近且連通的連通分量,并獲取每個連通分量的顏色平均值作為該連通分量的顏色,同時統計該連通分量像素數和外接矩形框;
S32:以連通分量的高、寬、像素數、高寬比和緊致性為條件,通過閾值法對所有連通分量進行過濾,獲得滿足圖例要求的候選圖例;
S33:兩兩遍歷所有可能的候選圖例連通分量對,將顏色和高度符合一致性要求的兩個連通分量組合為一個新候選圖例;
S34:將數據圖中位于數據區域上面、右邊和下面的三個區域,分別進行S31~S33從而得到這三個區域中的所有候選圖例,根據三個區域各自的候選圖例的數量選擇候選圖例數量最多的區域中的候選圖例,作為數據圖的實際圖例;
S35:根據圖例的空間位置對獲取的實際圖例進行布局分析,確定該數據圖中的圖例是垂直布局、水平布局還是混合式的布局方式,并過濾掉布局位置不符合布局方式的圖例;
S36:根據圖例的布局方式,從數據圖中查找每個圖例對應的圖例文本框,并識別獲得每個圖例文本框中的文字字符以及字符顏色;
S4:按照S41~S45的步驟,根據圖例顏色提取對應的柱體或者折線連通分量,并進行過濾和分類:
S41:將背景顏色、文本中的字符顏色、圖例顏色組合成一個不同顏色類別的顏色列表,然后遍歷數據圖中數據區域內的像素,計算每個像素的顏色與顏色列表中各顏色類別的顏色距離,將顏色距離最近的顏色類別標記作為像素的類別;
S42:對每個類別的像素進行連通分量分析,并通過閾值法對連通分量進行篩選過濾,得到數據區域中每個圖例對應的連通分量集合;
S43:以連通分量的高、寬、像素數和緊致性為條件,通過閾值法對所有連通分量集合進行遍歷,判斷每個連通分量是否為柱體;如果存在柱體,則計算圖中所有柱體高度的方差以及所有柱體寬度的方差,根據方差確定柱狀圖中的柱體屬于水平布局還是垂直布局,然后計算柱體的柱寬;如果不存在柱體,則認為是折線圖,折線圖的布局方向類型為垂直布局;
S44:根據數據圖的布局方向類型,識別每個圖例對應的連通分量集合是柱體還是折線,同時確定數據圖中的分類坐標軸和數值坐標軸;
S45:對識別為柱體的圖例對應的所有連通分量,將柱體寬度符合S43中所述柱寬的柱體選擇為該圖例的候選柱體,然后對所有柱體的空間位置和距離進行分析,識別是否有被折線分割為兩個連通分量的柱體,若有則將其重新組合為整體;
S5:根據數據圖的布局方向類型,確定分類坐標軸關鍵點,并定位每個分類坐標軸關鍵點對應的分類坐標軸標簽;
S6:根據分類坐標軸關鍵點定位柱體或折線上的數據關鍵點,確定每個數據關鍵點對應的標注數值文本框,并進行數值識別得到框內的標注數值;
S7:根據數值坐標軸計算數據圖中單個像素對應數值,并估計柱體或者折線關鍵點對應的數值;
S8:針對數據圖中的每個數據關鍵點,以估計數值對識別得到的標注數值進行誤差校驗,確定最終的數值結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學上虞科學與工程研究院有限公司,未經杭州電子科技大學上虞科學與工程研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910972334.8/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





