[發明專利]一種富格式文檔的圖形識別方法和系統在審
| 申請號: | 202210477699.5 | 申請日: | 2022-05-05 |
| 公開(公告)號: | CN114724165A | 公開(公告)日: | 2022-07-08 |
| 發明(設計)人: | 王俊;喬美萱;向俊夫;侯啟予 | 申請(專利權)人: | 南京吾道知信信息技術有限公司 |
| 主分類號: | G06V30/414 | 分類號: | G06V30/414;G06V30/413;G06N3/08;G06N3/04;G06K9/62;G06V10/764;G06V10/82;G06V10/25 |
| 代理公司: | 北京棘龍知識產權代理有限公司 11740 | 代理人: | 李改平 |
| 地址: | 211100 江蘇省南京市江寧*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 格式 文檔 圖形 識別 方法 系統 | ||
本發明公開了一種富格式文檔的圖形識別方法和系統,屬于圖形識別技術領域,所述方法包括:識別文檔頁面中圖形的區域和類別;基于所述圖形類別,獲得圖形區域中的對象,所述對象包括:形狀對象、文本塊和連線;根據文本塊所在的位置,建立文本塊與形狀對象或連線的關聯;根據連線的端點,找到連線的鄰近對象;根據連線的類別,將相鄰連線進行整合,獲得整合連線;建立所述整合連線、鄰近形狀對象和文本塊的關聯,并獲得結構化信息。圖形類別不同,對象的形式和連接形式不同,基于圖形類別的圖形識別,可以有效提高識別的準確性;根據連線的類別,將連線的各個連線進行整合,獲得整合連線,利于識別復雜圖形中對象之間連接關系。
技術領域
本發明涉及圖形識別技術領域,具體涉及一種富格式文檔的圖形識別方法和系統。
背景技術
隨著數字化智能化等技術的發展,對各行各業中用到的圖文并茂并茂的富格式文檔(Rich-format)自動處理的需求越來越迫切,例如:金融相關的各類公告、分析報告中具有股權結構圖和組織架構圖;專利文檔中,具有系統框架圖和流程圖;科學技術論文和報告具有大量框架圖和流程圖。
為了實現富格式文檔信息的深度結構化,構建領域專業知識圖譜,對文檔中包含各式各樣圖(Figure)中識別和理解是其中重要的環節,其中的圖形含有大量可以轉化為知識圖譜的并存儲到數據庫中的結構化信息。
目前,采用基于深度學習的圖形識別方法進行圖形識別,包括基于圖形處理的傳統方法和基于目標檢測的方法。例如以下文獻采用了基于圖形處理的傳統方法對流程圖進行識別,專利搜索中非文本信息檢索的流程圖識別(Flowchart recognition for non-textual information retrieval in patent search,Information Retrieval,Universitat Autònoma de Barcelona)、專利圖像中流程圖的可視化結構分析(JOANNEUMRESEARCH Forschungsgesel Ischaft mbH,DIGITAL-Institute for Information andCommunication Technologies,Austria)、以及CLEF-IP 2012專利圖紙流程圖的文本綜述(Textual summarisation of flowcharts in patent drawings for CLEF-IP 2012,INRIA-Humboldt Universitat zu Berlin-Institut fur Deutsche Sprache undLinguistik)。以下文獻采用基于基于目標檢測的方法進行圖形識別:基于Faster R-CNN的在線手寫圖形符號檢測(Symbol detection in online handwritten graphics usingFaster R-CNN,DAS-2018,University of Sao Paulo)、基于Arrow R-CNN的手寫圖形識別(Arrow R-CNN for handwritten diagram recognition,International Journal onDocument Analysis and Recognition(IJDAR),2021/02,SAP and University ofMannheim)、Sketch2BPMN:手繪自動識別的BPMN模型(Sketch2BPMN:AutomaticRecognition of Hand-drawn BPMN Models,33rd International Conference onAdvanced Information Systems Engineering(CAiSE 2021),SAP and University ofMannheim)、圖形網絡:使用視覺箭頭關系檢測的手繪圖形識別(DiagramNet:Hand-drawnDiagram Recognition using Visual Arrow-relation Detection,ICDAR-2021,SAP andUniversity of Mannheim)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京吾道知信信息技術有限公司,未經南京吾道知信信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210477699.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種可調節型眼科手術頭位固定器
- 下一篇:一種智能防盜型收款機





