[發(fā)明專利]提取文字圖片及其描述的方法和系統(tǒng)有效
申請(qǐng)?zhí)枺?/td> | 202110368879.5 | 申請(qǐng)日: | 2021-04-06 |
公開(公告)號(hào): | CN113111869B | 公開(公告)日: | 2022-12-09 |
發(fā)明(設(shè)計(jì))人: | 郭志新;顏銘萱;賈雨葶;王海文;楊莉娜;李琦;徐輝;傅洛伊;王新兵 | 申請(qǐng)(專利權(quán))人: | 上海交通大學(xué) |
主分類號(hào): | G06V30/14 | 分類號(hào): | G06V30/14;G06V20/62;G06V30/148;G06V30/19 |
代理公司: | 上海漢聲知識(shí)產(chǎn)權(quán)代理有限公司 31236 | 代理人: | 胡晶 |
地址: | 200240 *** | 國省代碼: | 上海;31 |
權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關(guān)鍵詞: | 提取 文字 圖片 及其 描述 方法 系統(tǒng) | ||
本發(fā)明提供了一種提取文字圖片及其描述的方法和系統(tǒng),包括:從文件中抽取圖片及其相關(guān)描述;判斷圖片中是否包含子圖,若不包含子圖則返回圖片及其描述并結(jié)束;若包含子圖則基于YOLO4模型進(jìn)行目標(biāo)檢測(cè),對(duì)子圖進(jìn)行識(shí)別切割;基于YOLO4目標(biāo)檢測(cè)模型檢測(cè)子圖的圖片序號(hào);基于CRNN算法,識(shí)別檢測(cè)到的圖片序號(hào);根據(jù)圖片序號(hào)信息對(duì)文本描述進(jìn)行拆分及重新組合;將切割好的圖片與其對(duì)應(yīng)的文本描述匹配并返回。本發(fā)明可抽取文件中的圖片及其描述,若圖片中包含子圖,則將子圖進(jìn)行切割并與其對(duì)應(yīng)描述對(duì)齊,實(shí)現(xiàn)了將文件中的圖片數(shù)據(jù)進(jìn)行整理的目的。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)視覺及自然語言處理技術(shù)領(lǐng)域,具體地,涉及一種提取文字圖片及其描述的方法和系統(tǒng)。
背景技術(shù)
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域中的一種計(jì)算機(jī)技術(shù),用于檢測(cè)具有特定類別的語義對(duì)象(例如人、建筑物、動(dòng)物)。它被廣泛用于計(jì)算機(jī)視覺任務(wù),例如圖像注釋、活動(dòng)識(shí)別、人臉識(shí)別。它也被用于跟蹤對(duì)象,例如在足球比賽中跟蹤足球或跟蹤視頻中的人。每個(gè)對(duì)象類別都有自己的特殊特點(diǎn),目前用于目標(biāo)檢測(cè)的方法通常分為基于機(jī)器學(xué)習(xí)的方法或基于深度學(xué)習(xí)的方法,無法預(yù)測(cè)圖片中是否包含子圖或文本。
專利文獻(xiàn)CN112528954A(申請(qǐng)?zhí)枺篊N202011564026.0)公開了一種證件圖像文字提取方法,包括以下步驟:S1、輸入證件圖像;S2、通過文字檢測(cè)模型檢測(cè)證件圖像中的文字位置,并通過標(biāo)注框標(biāo)注文字位置;S3、統(tǒng)計(jì)證件圖像中標(biāo)注框位置分布情況,判斷圖像方向并進(jìn)行調(diào)整;S4、建立平面坐標(biāo),將標(biāo)注框按照Y軸進(jìn)行同行合并、排序,獲取每行文字的信息框;S5、將標(biāo)準(zhǔn)模板與信息框?qū)R,輸出信息框與標(biāo)準(zhǔn)模板的交集部分,裁剪輸出文字圖片;S6、用文字識(shí)別模型識(shí)別文字圖片,提取文字內(nèi)容。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中的缺陷,本發(fā)明的目的是提供一種提取文字圖片及其描述的方法和系統(tǒng)。
根據(jù)本發(fā)明提供的提取文字圖片及其描述的方法,包括:
步驟S1:解析文件并獲取文件中的圖片及圖片對(duì)應(yīng)的描述信息;
步驟S2:對(duì)數(shù)據(jù)庫中已有的圖片數(shù)據(jù)進(jìn)行人工標(biāo)注后,對(duì)YOLO4目標(biāo)檢測(cè)模型進(jìn)行訓(xùn)練與調(diào)試,通過訓(xùn)練后的YOLO4目標(biāo)檢測(cè)模型判斷獲取的圖片中是否存在子圖;
步驟S3:若圖片中不存在子圖,則返回圖片及其對(duì)應(yīng)描述信息;
步驟S4:將含有子圖的圖片通過訓(xùn)練后的YOLO4目標(biāo)檢測(cè)模型進(jìn)行檢測(cè)與切割;
步驟S5:將切割后的子圖通過訓(xùn)練后的YOLO4模型進(jìn)行文本目標(biāo)檢測(cè)與切割;
步驟S6:人工生成圖片文本數(shù)據(jù)并進(jìn)行標(biāo)注,對(duì)文本識(shí)別模型CRNN進(jìn)行訓(xùn)練與調(diào)試,將子圖上檢測(cè)出來的圖片序號(hào)通過調(diào)試后的CRNN模型進(jìn)行文字識(shí)別;
步驟S7:根據(jù)圖片序號(hào)識(shí)別結(jié)果進(jìn)行圖片描述信息的文本拆分及重組;
步驟S8:將子圖與其對(duì)應(yīng)的圖片子描述對(duì)齊,并返回子圖及其對(duì)應(yīng)的圖片描述。
優(yōu)選的,所述步驟S1包括:
步驟S101:在數(shù)據(jù)庫中取出待處理的PDF文件;
步驟S102:使用PDFFigure2對(duì)PDF文件進(jìn)行解析,獲取相關(guān)圖片及PDF的JSON數(shù)據(jù);
步驟S103:解析JSON數(shù)據(jù),獲取圖片描述信息。
優(yōu)選的,所述步驟S2包括:
步驟S201:將數(shù)據(jù)庫中解析出來的圖片使用LabelImg進(jìn)行人工標(biāo)注,標(biāo)記需要檢測(cè)的圖片,并標(biāo)記類別為子圖;
步驟S202:根據(jù)標(biāo)注好的數(shù)據(jù)按照9:1的比例隨機(jī)分成訓(xùn)練集數(shù)據(jù)以及測(cè)試集數(shù)據(jù),對(duì)YOLO4目標(biāo)檢測(cè)模型進(jìn)行訓(xùn)練與調(diào)試,并獲得對(duì)于子圖檢測(cè)的權(quán)重網(wǎng)絡(luò);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海交通大學(xué),未經(jīng)上海交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110368879.5/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。