[發明專利]提取文字圖片及其描述的方法和系統有效
申請號: | 202110368879.5 | 申請日: | 2021-04-06 |
公開(公告)號: | CN113111869B | 公開(公告)日: | 2022-12-09 |
發明(設計)人: | 郭志新;顏銘萱;賈雨葶;王海文;楊莉娜;李琦;徐輝;傅洛伊;王新兵 | 申請(專利權)人: | 上海交通大學 |
主分類號: | G06V30/14 | 分類號: | G06V30/14;G06V20/62;G06V30/148;G06V30/19 |
代理公司: | 上海漢聲知識產權代理有限公司 31236 | 代理人: | 胡晶 |
地址: | 200240 *** | 國省代碼: | 上海;31 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 提取 文字 圖片 及其 描述 方法 系統 | ||
1.一種提取文字圖片及其描述的方法,其特征在于,包括:
步驟S1:解析文件并獲取文件中的圖片及圖片對應的描述信息;
步驟S2:對數據庫中已有的圖片數據進行人工標注后,對YOLO4目標檢測模型進行訓練與調試,通過訓練后的YOLO4目標檢測模型判斷獲取的圖片中是否存在子圖;
步驟S3:若圖片中不存在子圖,則返回圖片及其對應描述信息;
步驟S4:將含有子圖的圖片通過訓練后的YOLO4目標檢測模型進行檢測與切割;
步驟S5:將切割后的子圖通過訓練后的YOLO4模型進行文本目標檢測與切割;
步驟S6:人工生成圖片文本數據并進行標注,對文本識別模型CRNN進行訓練與調試,將子圖上檢測出來的圖片序號通過調試后的CRNN模型進行文字識別;
步驟S7:根據圖片序號識別結果進行圖片描述信息的文本拆分及重組;
步驟S8:將子圖與其對應的圖片子描述對齊,并返回子圖及其對應的圖片描述;
所述步驟S7包括:
步驟S701:將提取出來的圖片描述文本通過Sci-Spacy進行粗粒度的預處理;
步驟S702:將經過Sci-Spacy預處理過的文本以句號為切分標識符,基于正則匹配和規則進行二次切分以及片段重組;
步驟S703:將切分后的文本以分號和冒號為切分標識符,判斷是否需要進一步切分。
2.根據權利要求1所述的提取文字圖片及其描述的方法,其特征在于,所述步驟S1包括:
步驟S101:在數據庫中取出待處理的PDF文件;
步驟S102:使用PDFFigure2對PDF文件進行解析,獲取相關圖片及PDF的JSON數據;
步驟S103:解析JSON數據,獲取圖片描述信息。
3.根據權利要求1所述的提取文字圖片及其描述的方法,其特征在于,所述步驟S2包括:
步驟S201:將數據庫中解析出來的圖片使用LabelImg進行人工標注,標記需要檢測的圖片,并標記類別為子圖;
步驟S202:根據標注好的數據按照9:1的比例隨機分成訓練集數據以及測試集數據,對YOLO4目標檢測模型進行訓練與調試,并獲得對于子圖檢測的權重網絡;
步驟S203:將圖片輸入到調試后的YOLO4目標檢測模型中,若檢測子圖個數大于1,則圖片中包含子圖,反之則不包含子圖。
4.根據權利要求1所述的提取文字圖片及其描述的方法,其特征在于,所述步驟S5包括:
步驟S501:將數據庫中解析出來的圖片使用LabelImg進行人工標注,標記需要檢測的圖片,并標記類別為文字序號;
步驟S502:根據標注好的數據按照9:1的比例隨機分成訓練集數據以及測試集數據,對YOLO4目標檢測模型進行訓練與調試,并獲得對于文字識別的權重網絡;
步驟S503:將切割好的子圖輸入到YOLO4目標檢測模型中,進行文本檢測。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110368879.5/1.html,轉載請聲明來源鉆瓜專利網。