[發(fā)明專利]基于圖像處理與序列標(biāo)注的學(xué)術(shù)文獻(xiàn)語(yǔ)義再結(jié)構(gòu)化方法有效
| 申請(qǐng)?zhí)枺?/td> | 201510768902.4 | 申請(qǐng)日: | 2015-11-12 |
| 公開(kāi)(公告)號(hào): | CN105260727B | 公開(kāi)(公告)日: | 2018-09-21 |
| 發(fā)明(設(shè)計(jì))人: | 陸偉;丁恒;方龍 | 申請(qǐng)(專利權(quán))人: | 武漢大學(xué) |
| 主分類(lèi)號(hào): | G06K9/00 | 分類(lèi)號(hào): | G06K9/00 |
| 代理公司: | 武漢科皓知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 42222 | 代理人: | 魏波 |
| 地址: | 430072 湖*** | 國(guó)省代碼: | 湖北;42 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 圖像 處理 序列 標(biāo)注 學(xué)術(shù) 文獻(xiàn) 語(yǔ)義 結(jié)構(gòu) 方法 | ||
1.基于圖像處理與序列標(biāo)注的學(xué)術(shù)文獻(xiàn)語(yǔ)義再結(jié)構(gòu)化方法,其特征在于,包括以下步驟:
步驟1:將學(xué)術(shù)文獻(xiàn)轉(zhuǎn)化為圖像形式,并對(duì)其進(jìn)行版式分析;首先進(jìn)行灰度化、二值化、輪廓獲取、外輪廓、建立rtree空間索引,再利用空間索引對(duì)相互覆蓋的文本區(qū)塊進(jìn)行融合,最終獲得符合學(xué)術(shù)文獻(xiàn)邏輯結(jié)構(gòu)的區(qū)塊;
步驟2:利用圖像識(shí)別技術(shù)和OCR技術(shù)對(duì)每個(gè)符合學(xué)術(shù)文獻(xiàn)邏輯結(jié)構(gòu)的區(qū)塊進(jìn)行識(shí)別;其中圖像識(shí)別技術(shù)將邏輯區(qū)塊分類(lèi)為文本、圖像、表格三類(lèi),對(duì)于識(shí)別為圖像和表格的區(qū)塊將以JPG格式保存為圖像,對(duì)于文本區(qū)塊采用開(kāi)源OCR工具Tesseract將圖像轉(zhuǎn)換為機(jī)器可讀的純文本;
步驟3:利用自然語(yǔ)言處理中的序列標(biāo)注模型,對(duì)步驟2中識(shí)別出來(lái)的區(qū)塊進(jìn)行標(biāo)簽序列轉(zhuǎn)換;
利用條件隨機(jī)場(chǎng)模型對(duì)步驟2識(shí)別出來(lái)的文本區(qū)塊進(jìn)行序列標(biāo)注,其具體實(shí)現(xiàn)包括以下子步驟:
步驟3.1:預(yù)處理;主要是對(duì)文本格式的數(shù)據(jù),進(jìn)行句子切分、分詞、詞法分析;
步驟3.2:特征抽取,抽取文本塊在一篇文章里面的相對(duì)位置作為特征P,包括頭部,文章主體以及文章結(jié)尾;將數(shù)字標(biāo)題以及段落特征作為特征T,通過(guò)檢測(cè)文獻(xiàn)的數(shù)字開(kāi)頭行判斷是否是小標(biāo)題;標(biāo)點(diǎn)符號(hào)以及特殊符號(hào)作為特征M; 文本塊的長(zhǎng)度作為特征L,每個(gè)文本塊包含的詞的數(shù)量;文獻(xiàn)中字體的大小作為特征F以及文本塊的起始坐標(biāo)作為特征C;CRF是序列標(biāo)注問(wèn)題,所以在特征抽取時(shí)會(huì)得到一個(gè)序列,即對(duì)于每一個(gè)文本區(qū)塊標(biāo)記,它的所有上下文文本塊的邏輯結(jié)構(gòu)順序得到的標(biāo)記結(jié)果構(gòu)成了一個(gè)標(biāo)記序列S=(P+T+M+L+F+C);
步驟3.3:對(duì)特征抽取得到的特征文件進(jìn)行處理,得到每一個(gè)序列標(biāo)注的標(biāo)注結(jié)果,然后對(duì)標(biāo)注結(jié)果進(jìn)行查全、查準(zhǔn)評(píng)價(jià);
步驟3.4:利用序列標(biāo)注的結(jié)果對(duì)文本區(qū)塊進(jìn)行融合,最終獲得符合學(xué)術(shù)文獻(xiàn)邏輯結(jié)構(gòu)的文本區(qū)塊;
步驟4:對(duì)序列標(biāo)注得到的文獻(xiàn)邏輯結(jié)構(gòu)結(jié)果進(jìn)行優(yōu)化,得到最終的文獻(xiàn)邏輯結(jié)構(gòu)。
2.根據(jù)權(quán)利要求1所述的基于圖像處理與序列標(biāo)注的學(xué)術(shù)文獻(xiàn)語(yǔ)義再結(jié)構(gòu)化方法,其特征在于:步驟2的具體實(shí)現(xiàn)包括以下子步驟:
步驟2.1:首先對(duì)數(shù)據(jù)源進(jìn)行預(yù)處理;源數(shù)據(jù)是已經(jīng)轉(zhuǎn)換為圖像格式的學(xué)術(shù)文獻(xiàn);預(yù)處理主要是減少圖像中的無(wú)用信息,包括灰度化、降噪、二值化;
步驟2.2:特征提取和降維;對(duì)于每個(gè)邏輯結(jié)構(gòu)區(qū)塊,提取該區(qū)塊的寬度W、高度H,并利用OPENCV輪廓提取算法獲取所有輪廓和輪廓對(duì)應(yīng)的面積,并采用K閾值法計(jì)算輪廓面積對(duì)于K的數(shù)量C1和小于K的數(shù)量C2,利用OPENCV直線檢測(cè)算法計(jì)算區(qū)塊包含的長(zhǎng)度大于區(qū)塊2/3的水平直線數(shù)量C3和高度大于區(qū)塊2/3的垂直直線數(shù)量C4;利用OPENCV多維直方圖算法提取步驟2.1中未二值化處理的圖像區(qū)塊的3通道直方圖向量V1、V2、V3;使用BOW算法對(duì)區(qū)塊進(jìn)行BOW編碼獲得特征向量V4,BOW編碼維度為3000,對(duì)V4使用PCA進(jìn)行降維處理獲得500維特征向量V5;最終每個(gè)區(qū)塊的特征F=(W,H,C1,C2,C3,C4,V1,V2,V3,V5);
步驟2.3:進(jìn)行分類(lèi)器設(shè)計(jì)、訓(xùn)練和實(shí)際識(shí)別;對(duì)分類(lèi)器進(jìn)行訓(xùn)練,使用SVM和Adaboost算法進(jìn)行有監(jiān)督訓(xùn)練,得到訓(xùn)練分類(lèi)模型M,該模型用于識(shí)別邏輯區(qū)塊類(lèi)型,邏輯區(qū)塊類(lèi)型包括文本、圖像、表格;
步驟2.4:對(duì)識(shí)別出的圖像區(qū)塊和表格區(qū)塊使用Tesseract進(jìn)行OCR并獲取置信得分S1,以S1和分類(lèi)模型M的分類(lèi)概率得分S2做線性插值計(jì)算,計(jì)算公式為Sum=(1-a)*S1+a*S2,其中Sum表示求和結(jié)果,a為調(diào)控參數(shù),以最終得分作為分類(lèi)依據(jù),得分高于閾值L的區(qū)塊被視作分類(lèi)正確;對(duì)分類(lèi)結(jié)果進(jìn)行參數(shù)a調(diào)整,提高分類(lèi)結(jié)果的準(zhǔn)確性;
步驟2.5:對(duì)分類(lèi)正確的區(qū)塊中圖像和表格區(qū)塊直接保存為JPG格式圖片,對(duì)于其中的文本區(qū)塊使用Tesseract進(jìn)行OCR文字識(shí)別,將圖像中包含的文字識(shí)別出來(lái),保存為文本格式。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢大學(xué),未經(jīng)武漢大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510768902.4/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類(lèi)專利
- 專利分類(lèi)
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設(shè)備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





