[發明專利]基于圖像處理與序列標注的學術文獻語義再結構化方法有效
| 申請號: | 201510768902.4 | 申請日: | 2015-11-12 |
| 公開(公告)號: | CN105260727B | 公開(公告)日: | 2018-09-21 |
| 發明(設計)人: | 陸偉;丁恒;方龍 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 魏波 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 圖像 處理 序列 標注 學術 文獻 語義 結構 方法 | ||
本發明公開了一種基于圖像處理與序列標注的學術文獻語義再結構化方法,通過將學術文獻進行相關處理轉化為圖像形式,并對其進行版式分析;利用OCR(Optical Character Recognition光學字符識別)技術對每個符合學術文獻邏輯結構的文本區塊進行識別,將圖像等轉換為機器可讀的純文本;利用自然語言處理中的序列標注模型,對處理后的文獻內容進行標簽序列轉換;通過對比版式分析和序列標注的得到的文獻邏輯結構結果,進行優化,得到最終的文獻邏輯結構。為文獻自動添加語義標簽,以輔助閱讀,將其在一定程度上轉化為結構化的內容,提供了學術文獻的利用效率。
技術領域
本發明屬于信息處理技術領域,尤其涉及語義出版領域存量學術文獻的語義再結構化方法。
背景技術
信息技術不斷發展前進,在很大程度上改變了社會信息生產、傳播和消費的方式,進而使得傳統出版向數字出版演進。作為數字出版的高級形態,語義出版不僅可以提高學術文獻的語義,促進它們自動化獲取,使其能夠鏈接至語義相關的內容。但是目前語義出版所面臨的是目前有大量的存量文獻,如何對這么龐大的存量文獻進行處理,以提高信息質量和深度是一個重要的問題。再者,隨著學術文獻的爆炸性增長導致了讀者單位閱讀時間減少,語義出版通過給文獻內容添加語義標簽,提供增強型文本來輔助讀者閱讀以及快速把握文獻的核心主題,以提高閱讀效率,其中突出的是學術文獻的再結構化問題。而學術文獻的再結構化仍是一個相當困難的研究主題,大量非結構化內容的存在是在線信息再利用效率低下的原因之一,通過對文獻進行再結構化可以將文獻分解成多個相互相關聯的、彼此間有明確層次結構的組成部分,以便于實現文本內容的智能化分析處理和自動化獲取與融合。目前存在對文獻進行人工結構標注,但是效率太多低下,在學術文獻存量龐大的情況下可謂是捉襟見肘。
發明內容
為了解決上述問題,本發明提出了一種從最常見的中文學術文獻的存儲的格式出發,通過結合圖像處理技術OCR (Optical Character Recognition 光學字符識別)和自然語言處理的序列標注模型,進行數字出版的學術文獻版式分析,實現文獻邏輯結構識別的學術文獻語義再結構化方法。
本發明所采用的技術方案是:基于圖像處理與序列標注的學術文獻語義再結構化方法,其特征在于,包括以下步驟:
步驟1:將學術文獻轉化為圖像形式,并對其進行版式分析;首先進行灰度化、二值化、輪廓獲取、外輪廓、建立rtree空間索引,再利用空間索引對相互覆蓋的文本區塊進行融合,最終獲得符合學術文獻邏輯結構的區塊;
步驟2:利用圖像識別技術和OCR技術對每個符合學術文獻邏輯結構的文本區塊進行識別,其中圖像識別技術將文本區塊分類為文本、圖像、表格三類。對于識別為圖像和表格的區塊將以JPG格式保存為圖像,對于文本區塊采用開源OCR工具Tesseract將圖像轉換為機器可讀的純文本;
步驟3:利用自然語言處理中的序列標注模型,對文獻內容進行標簽序列轉換。
作為優選,步驟2的具體實現包括以下子步驟:
步驟2.1:首先對數據源進行預處理;所述源數據是已經轉換為圖像格式的學術文獻;預處理主要是減少圖像中的無用信息,包括灰度化、降噪、二值化;
步驟2.2:特征提取和降維;對于每個邏輯結構區塊,提取該區塊的寬度W、高度H,并利用OPENCV輪廓提取算法獲取所有輪廓和輪廓對應的面積,并采用K閾值法計算輪廓面積對于K的數量C1和小于K的數量C2,利用OPENCV直線檢測算法計算區塊包含的長度大于區塊2/3的水平直線數量C3和高度大于區塊2/3的垂直直線數量C4。利用OPENCV多維直方圖算法提取步驟2.1中未二值化處理的圖像區塊3通道直方圖向量V1、V2、V3。使用BOW算法對區塊進行BOW編碼獲得特征向量V4,BOW編碼維度為3000,對V4使用PCA(主成分分析法)進行降維處理獲得500維特征向量V5。最終每個區塊的特征F=(W,H,C1,C2,C3,C4,V1,V2,V3,V5 )。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510768902.4/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





