[發(fā)明專(zhuān)利]一種識(shí)別PDF文檔中圖表的方法在審
| 申請(qǐng)?zhí)枺?/td> | 201710209497.1 | 申請(qǐng)日: | 2017-03-31 |
| 公開(kāi)(公告)號(hào): | CN107133566A | 公開(kāi)(公告)日: | 2017-09-05 |
| 發(fā)明(設(shè)計(jì))人: | 常誠(chéng);何黎剛;陳浩 | 申請(qǐng)(專(zhuān)利權(quán))人: | 常誠(chéng) |
| 主分類(lèi)號(hào): | G06K9/00 | 分類(lèi)號(hào): | G06K9/00 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 410082 湖南省長(zhǎng)沙*** | 國(guó)省代碼: | 湖南;43 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 識(shí)別 pdf 文檔 圖表 方法 | ||
1.一種識(shí)別PDF文件中圖表的方法,其特征在于,該方法包括:步驟1:遍歷文件數(shù)據(jù),記錄PDF格式標(biāo)準(zhǔn)中所有文字和繪圖 (路徑、剪輯、位圖)對(duì)象的區(qū)域信息,表示為該對(duì)象位置坐標(biāo)及寬高參數(shù)構(gòu)成的矩形;步驟2:計(jì)算每個(gè)文字對(duì)象的字符密度(字符數(shù)除以矩形面積),統(tǒng)計(jì)所有文字對(duì)象的平均字符密度d和方差 v,最小字符寬w和高h(yuǎn);步驟3:過(guò)濾不合規(guī)繪圖對(duì)象,條件包括矩形超出頁(yè)面內(nèi)容邊界或其他自定條件,如果矩形面積為零,則繪圖區(qū)域水平和垂直方向各擴(kuò)大w/2和h/2;步驟4:遍歷繪圖對(duì)象,如果與其他對(duì)象(文字或繪圖)矩形相交則合并區(qū)域?yàn)樾吕L圖對(duì)象并記錄字符數(shù),直到所有范圍不再變化;
步驟5:計(jì)算每個(gè)繪圖對(duì)象的字符密度D,如果D值在 (d-v, d+v) 區(qū)間外,則判定該對(duì)象為圖表,對(duì)應(yīng)矩形范圍即圖表所在區(qū)域;其中,在所述步驟5之后,還包括步驟6:讀取已識(shí)別圖表繪圖區(qū)域正上方或下方的文字,如果發(fā)現(xiàn)指定關(guān)鍵字,則確定該文字段落為題注、表注或圖注,也屬于圖表的一部分;關(guān)鍵字視文檔類(lèi)型和語(yǔ)言而定,如“Figure”、“圖”、“Table”、“表”等等。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于常誠(chéng),未經(jīng)常誠(chéng)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710209497.1/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序
- 一種電子文檔識(shí)別方法及裝置
- 文檔匹配方法和文檔匹配裝置
- 復(fù)雜文檔分離組織方法以及復(fù)雜文檔自動(dòng)生成方法
- 一種文檔流程控制方法及裝置
- 云文檔加密及解密方法、加密及解密裝置、以及處理系統(tǒng)
- 一種將Markdown文檔轉(zhuǎn)換為PDF文檔的方法、裝置
- 文檔類(lèi)型識(shí)別方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于文檔編輯軟件的文檔處理方法、裝置、設(shè)備及介質(zhì)
- 一種引用文檔的更新方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文檔操作錄制方法、文檔操作動(dòng)畫(huà)生成方法、裝置及設(shè)備





