[發明專利]基于DWG圖紙的文本提取方法及相關產品有效
| 申請號: | 201911304280.4 | 申請日: | 2019-12-17 |
| 公開(公告)號: | CN111160157B | 公開(公告)日: | 2023-08-08 |
| 發明(設計)人: | 張澤斌;張華安;張健 | 申請(專利權)人: | 深圳市萬翼數字技術有限公司 |
| 主分類號: | G06V30/422 | 分類號: | G06V30/422;G06V20/62 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 熊永強 |
| 地址: | 518051 廣東省深圳市南山區粵海*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 dwg 圖紙 文本 提取 方法 相關 產品 | ||
1.一種基于DWG圖紙的文本提取方法,其特征在于,應用于電子設備,所述方法包括:
獲取DWG圖紙,確定所述DWG圖紙的標題欄區域;
在所述標題欄區域中確定目標關鍵字,具體包括:從所述標題欄區域中獲取多個文本圖元;獲取預設的關鍵字集,其中,所述關鍵字集包括:至少一個關鍵字;從該多個文本圖元中確定任意一個文本圖元為第一文本圖元,獲取該第一文本圖元中包含的文本數據,將該文本數據與該關鍵字集中的至少一個關鍵字依次進行匹配,若該文本數據包含該關鍵字集中任意一個關鍵字,確定該第一文本圖元與該關鍵字集匹配成功,確定匹配成功的關鍵字為目標關鍵字;若所述多個文本圖元與所述關鍵字集匹配不成功,獲取該多個文本圖元對應的多個文本圖元坐標集,該多個文本圖元坐標集中任意一個文本圖元坐標集包括:第一圖元坐標、第二圖元坐標、第三圖元坐標和第四圖元坐標,通過該多個文本圖元坐標集確定該多個文本圖元的位置,在DWG圖紙中截取該多個文本圖元坐標集對應的多個文本圖像;獲取預設的光學字符識別算法,對所述多個文本圖像執行所述光學字符識別算法,得到所述多個文本圖像對應的多個文本內容,依據所述關鍵字集對所述多個文本內容執行關鍵字查找操作,確定所述多個文本內容中包含的關鍵字為目標關鍵字;
獲取所述目標關鍵字的關鍵字坐標;
依據所述關鍵字坐標在所述DWG圖紙中確定第一矩形區域;
依據所述第一矩形區域確定目標文本,提取所述目標文本,包括:在所述DWG圖紙中截取該第一矩形區域對應的第一矩形圖像,獲取預設的文本檢測模型,將所述第一矩形圖像作為所述文本檢測模型的輸入,得到所述第一矩形圖像對應的檢測結果;依據該檢測結果判斷該第一矩形區域是否包含文本數據,若該第一矩形區域包括文本數據,獲取該目標關鍵字對應的文本格式,提取該文本數據對應的數據格式,判斷該文本格式與該數據格式是否一致,若該文本格式與該數據格式不一致,則確定該文本數據處于無效狀態;若第一矩形區域不包含文本數據,獲取預設的搜索步長,依據所述搜索步長和所述第一矩形區域確定第二矩形區域;判斷所述第二矩形區域中是否包含文本數據;若包含,從所述第二矩形區域中提取待測文本;依據預設的關鍵字與文本格式的映射關系確定所述目標關鍵字對應的目標文本格式,獲取所述待測文本的待測文本格式,比對所述目標文本格式和所述待測文本格式;若比對成功,確定所述待測文本為所述目標文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市萬翼數字技術有限公司,未經深圳市萬翼數字技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911304280.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種電解液及鋰離子電池
- 下一篇:伸縮梯的內側的梯節





