[發明專利]一種富格式文檔的圖形識別方法和系統在審
| 申請號: | 202210477699.5 | 申請日: | 2022-05-05 |
| 公開(公告)號: | CN114724165A | 公開(公告)日: | 2022-07-08 |
| 發明(設計)人: | 王俊;喬美萱;向俊夫;侯啟予 | 申請(專利權)人: | 南京吾道知信信息技術有限公司 |
| 主分類號: | G06V30/414 | 分類號: | G06V30/414;G06V30/413;G06N3/08;G06N3/04;G06K9/62;G06V10/764;G06V10/82;G06V10/25 |
| 代理公司: | 北京棘龍知識產權代理有限公司 11740 | 代理人: | 李改平 |
| 地址: | 211100 江蘇省南京市江寧*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 格式 文檔 圖形 識別 方法 系統 | ||
1.一種富格式文檔的圖形識別方法,其特征在于,所述方法包括:
識別文檔頁面中圖形的區域和類別;
基于所述圖形類別,獲得圖形區域中的對象,所述對象包括:形狀對象、文本塊和連線;
根據文本塊所在的位置,建立文本塊與形狀對象或連線的關聯;
根據連線的端點,找到連線的鄰近對象,所述鄰近對象包括鄰近連線和鄰近形狀對象;
根據連線的類別,將相鄰連線進行整合,獲得整合連線;
建立所述整合連線、鄰近形狀對象和文本塊的關聯,并獲得結構化信息。
2.根據權利要求1所述的圖形識別方法,其特征在于,通過機器學習的方法識別圖形類別:
識別文檔頁面的視覺特征;
獲取頁面中對象在視覺特征中的候選框;
所述候選框池化后,通過神經網絡獲得到邊框和粗分類;
根據所述粗分類,獲得圖形的邊框或對象;
所述圖形的視覺特征上采樣或多尺度視覺特征融合后上采樣,獲得第二特征圖;
獲得所述邊框相應的精細特征;
針對所述精細特征,在圖形的相應范圍內提取文本特征;
根據所述精細特征和文本特征,分別獲得視覺向量和文本向量;
將所述視覺向量和文本向量拼接后,通過多層感知機進行分類,獲得圖形類別。
3.根據權利要求2所述的圖形識別方法,其特征在于,通過CNN+FPN或SwinTransformer的方法,提取圖形的視覺特征;
通過RPN從所述視覺特征中獲得候選框;
所述候選框通過RoIAlign池化后,通過MLP對所述候選框進行校正,獲得的邊框和粗分類;
根據所述邊框的位置和大小,從所述第二特征圖中獲得精細特征;
對所述精細特征或邊框進行文本檢測,獲得文本框的位置和文本特征;
采用簡單詞向量或語境相關的方法,獲得文本特征的詞向量;
對文本塊中的詞向量進行池化操作,得到文本塊向量;
對圖形中所有文本塊向量進行池化操作,獲得所述頁面或圖形的文本向量;
將精細特征經1x1卷積降維后,通過多層感知機轉變為視覺向量。
4.根據權利要求2所述的圖形識別方法,其特征在于,所述圖形類別包括股權結構圖、組織架構圖、框架圖、流程圖、工程圖、電路圖和分子結構圖。
5.根據權利要求2所述的圖形識別方法,其特征在于,將所述候選框的特征圖送入掩膜預測模塊,得到候選框的掩膜。
6.根據權利要求5所述的圖形識別方法,其特征在于,所述連線或整合連線的類型包括:直線、分叉線、折線和曲線;
所述分叉線包括總線部分和分線部分,所述分叉線整合的方法包括:
根據所述掩膜,識別連線的端點,所述端點包括起點和終點;
根據所述連線的類別,獲得總線部分和分線部分;
基于所述端點將所述分線部分段銜接到總線部分,獲得分叉線;
折線整合的方法包括:根據邊框的類別,獲得折線的各個分段;根據端點,對所述分段進行銜接,獲得折線;
所述曲線或斜線的識別方法:獲得曲線或斜線邊框的旋轉角度,以及起始點和結束點。
7.根據權利要求1所述的圖形識別方法,其特征在于,
若距離兩個或多個文本塊最近的是同一形狀對象或連線,則將這些文本塊合并在一起,整體作為所述開關對象或連線的文本標注。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京吾道知信信息技術有限公司,未經南京吾道知信信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210477699.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種可調節型眼科手術頭位固定器
- 下一篇:一種智能防盜型收款機





