[發(fā)明專利]基于PDF文件解析的圖譜數(shù)據(jù)還原方法在審
| 申請?zhí)枺?/td> | 202110364526.8 | 申請日: | 2021-04-06 |
| 公開(公告)號: | CN112861821A | 公開(公告)日: | 2021-05-28 |
| 發(fā)明(設(shè)計)人: | 劉羽;王賀;王輝;李姜暉;劉永;付俐 | 申請(專利權(quán))人: | 劉羽 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06F16/33 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 230022 安徽省合*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 pdf 文件 解析 圖譜 數(shù)據(jù) 還原 方法 | ||
1.基于PDF文件解析的圖譜數(shù)據(jù)還原方法,其特征在于,所述處理方法包括以下步驟:
步驟一:使用計算機軟件工具對PDF文件進行解析,依次獲取圖譜報告中存在的的路徑對象(Path Object),讀取并對路徑對象的位置信息進行分析,尋找并確定圖譜的位置范圍;
步驟二:獲取圖譜報告中存在的的路徑對象(Path Object),根據(jù)情況,并進一步識別為圖譜曲線、坐標軸框架、積分線、積分線標記,將圖譜曲線中的圖譜坐標組合生成圖譜相對坐標數(shù)據(jù),將積分線的圖譜坐標生成積分線相對坐標數(shù)據(jù);
步驟三:在圖譜所處的位置范圍內(nèi),獲取文件圖譜的文本對象的文本信息和圖譜坐標,識別為縱坐標刻度線標注,橫坐標刻度線標注,及圖譜其他文本對象;進一步的,對圖譜其他文本對象根據(jù)對象位置判斷對象功能,將文本對象的文本及對象相對坐標匹配,生成圖譜參數(shù)數(shù)據(jù);
步驟四:在圖譜所處的位置范圍內(nèi),獲取文件圖譜的的路徑對象(Path Object),根據(jù)情況,并進一步識別為縱坐標刻度線,橫坐標刻度線,積分線、積分線標記,將積分線的圖譜坐標生成積分線相對坐標數(shù)據(jù);
步驟五:根據(jù)步驟三和步驟四的結(jié)果分別形成縱坐標刻度信息數(shù)據(jù)和橫坐標刻度信息數(shù)據(jù);
步驟六:解析文件中數(shù)據(jù)匯總表的文本信息及文本的位置信息生成匯總表數(shù)據(jù);
步驟七:讀取或計算文件圖譜中特定點的絕對坐標及對應(yīng)的相對坐標;
步驟八:根據(jù)已知特定點組合的絕對坐標數(shù)據(jù)及相對坐標數(shù)據(jù),計算圖譜的橫坐標校正系數(shù)與縱坐標校正系數(shù);
步驟九:采用已知絕對坐標及相對坐標的特定點之一作為參照點,根據(jù)步驟八得到的橫坐標校正系數(shù)與縱坐標校正系數(shù),將步驟二得到的圖譜相對坐標數(shù)據(jù)逐一進行換算,得到絕對坐標,生成圖譜絕對坐標數(shù)據(jù)字典;
步驟十:采用已知的絕對坐標及相對坐標的特定點之一作為參照點,根據(jù)步驟八得到的橫坐標與縱坐標的校正系數(shù),將步驟三得到的圖譜參數(shù)數(shù)據(jù)中的相對坐標數(shù)據(jù)逐一進行換算,得到絕對坐標,生成包含有絕對坐標的圖譜參數(shù)數(shù)據(jù)字典;
步驟十一:采用已知的絕對坐標及相對坐標的特定點之一作為參照點,根據(jù)步驟八得到的橫坐標與縱坐標的校正系數(shù),將步驟二或步驟四得到的積分線相對坐標數(shù)據(jù)中的相對坐標逐一進行換算,得到絕對坐標,生成積分線絕對坐標數(shù)據(jù)字典;
步驟十二:將圖譜絕對坐標數(shù)據(jù)字典,包含有絕對坐標的圖譜參數(shù)數(shù)據(jù)字典,積分線絕對坐標數(shù)據(jù)字典合并打包生成結(jié)構(gòu)化數(shù)據(jù)備用。
2.根據(jù)權(quán)利要求1所述基于PDF文件解析的圖譜數(shù)據(jù)還原方法,其特征在于,所述PDF文件為由生成數(shù)據(jù)的儀器設(shè)備的工作站或?qū)S密浖膱蟾娉绦蛲ㄟ^調(diào)用PDF虛擬打印功能直接生成的具備規(guī)范內(nèi)部結(jié)構(gòu)的可被程序解析其中所包含的各類對象位置和內(nèi)容的PDF文件。
3.根據(jù)權(quán)利要求1所述基于PDF文件解析的圖譜數(shù)據(jù)還原方法,其特征在于,所述步驟一到步驟四中涉及的計算機工具軟件包括而不僅限于C、C#、Python、Java、Visual Studio等計算機語言所創(chuàng)建的可對PDF文件內(nèi)容進行解析的工具軟件,進一步要求為可實現(xiàn)對PDF中各類對象的位置信息進行解析的工具軟件,更進一步要求為Python語言中的Pdfminer或Pdfminer3K。
4.根據(jù)權(quán)利要求1所述基于PDF文件解析的圖譜數(shù)據(jù)還原方法,其特征在于,所述步驟一到步驟四中的圖譜坐標是基于PDF頁面位置進行定位的相對坐標,為符合Pdfminer工具軟件所定義對象屬性中的x0、y0、x1、y1或pts數(shù)據(jù)包中的內(nèi)容。
5.根據(jù)權(quán)利要求1所述基于PDF文件解析的圖譜數(shù)據(jù)還原方法,其特征在于,所述步驟一中路徑對象(Path Object)為符合Pdfminer工具軟件所定義的LTRect對象。
6.根據(jù)權(quán)利要求1所述基于PDF文件解析的圖譜數(shù)據(jù)還原方法,其特征在于,所述步驟一中圖譜的準確位置范圍系指由滿足x1-x0最大且y1-y0最大的LTRect對象的x0,y0,x1,y1定義的矩形范圍。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于劉羽,未經(jīng)劉羽許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110364526.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標記或含有代碼標記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





