[發(fā)明專利]環(huán)境影響評估報告書表格文字的提取方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201810583398.4 | 申請日: | 2018-06-07 |
| 公開(公告)號: | CN108805076B | 公開(公告)日: | 2021-01-08 |
| 發(fā)明(設(shè)計)人: | 陳建海;儲蓉蓉;陳奇;何欽銘;翁海琴;沈欽仙 | 申請(專利權(quán))人: | 浙江大學(xué) |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/34;G06K9/62;G06N3/04 |
| 代理公司: | 杭州天勤知識產(chǎn)權(quán)代理有限公司 33224 | 代理人: | 高燕 |
| 地址: | 310013 浙江*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 環(huán)境 影響 評估 報告書 表格 文字 提取 方法 系統(tǒng) | ||
本發(fā)明公開了一種環(huán)境影響評估報告書表格文字的提取方法,包括以下步驟:(1)從環(huán)境影響評估報告書中識別出所有的表格,將識別出的表格以圖片格式保存;(2)基于卷積神經(jīng)網(wǎng)絡(luò),從所有表格圖片中識別出記錄有項目基本信息的目標(biāo)表格圖片;(3)從所述的目標(biāo)表格圖片中提取文字信息。本發(fā)明還公開了環(huán)境影響評估報告書表格文字的提取系統(tǒng)。本發(fā)明的表格文字提取方法將環(huán)境影響評估報告中的基本信息和相關(guān)項目信息的表格識別出來,并提取其中的文字信息,方便于對環(huán)境影響評估報告的管理,并方便于將相關(guān)項目和環(huán)境聯(lián)系起來,正確處理環(huán)境相關(guān)問題,減輕不利環(huán)境的影響。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機視覺OCR領(lǐng)域和深度學(xué)習(xí)領(lǐng)域,尤其涉及一種基于卷積神經(jīng)網(wǎng)絡(luò)的環(huán)境影響評估報告書表格文字的提取方法及系統(tǒng)。
背景技術(shù)
環(huán)境影響評估報告書,簡稱環(huán)評報告,是環(huán)保局對于各種項目進行環(huán)境影響預(yù)見性評估的說明書,其中評估了項目建成之后對環(huán)境的影響。環(huán)境影響評估報告書中的建設(shè)項目環(huán)境保護審批登記表記錄了項目基本信息,可以從中提取環(huán)境影響評估報告的有效信息去輔助解決目前面臨的環(huán)境問題,或者支持未來項目的決議,其意義重大。但是,每份環(huán)評報告幾乎都在百頁以上,如果用人工去審閱信息,費時、費力且管理不便。
由于環(huán)評報告書通常以PDF或者word文檔的形式存在,所以目前已知的對于環(huán)境影響評估報告的信息抽取是基于自然語言處理的方式,利用規(guī)則匹配文本,或者利用統(tǒng)計學(xué)習(xí)方法獲得文字分布規(guī)律。但是,前者太依賴于所制定的規(guī)則和所應(yīng)用的文本,沒有很好的可移植性;后者雖然有很好的可移植性,但是其準(zhǔn)確率受到了限制,而且會提取出無關(guān)信息,這是由于目前中文自然語言處理方面還有很大的進步空間,技術(shù)并未完全成熟。
目前計算機視覺領(lǐng)域研究成熟,尤其是圖像方面取得了很大的進步,在不同場景中應(yīng)用時的準(zhǔn)確率較高。另外,如果把文檔類型均轉(zhuǎn)換為圖片類型,也將會減少工作負(fù)擔(dān),不用分別處理不同類型的文檔。因此,可以提取環(huán)境影響評估報告中記錄信息的表格圖片,并識別表格圖像中的文字,從而實現(xiàn)信息的提取,這屬于計算機視覺的分支OCR領(lǐng)域。
OCR(Optical Character Recognition,光學(xué)字符識別)利用光學(xué)技術(shù)以及計算機技術(shù)將圖片中的文字讀取出來,并將其轉(zhuǎn)換成一種計算機可以接受、人又可以理解的格式。OCR的概念誕生于1929年,隨后在郵政編碼識別領(lǐng)域中發(fā)揮著良好作用,發(fā)展到目前為止,OCR的識別技術(shù)已然達(dá)到了一個較高的水平,被廣泛用在新聞、出版、印刷、圖書館和辦公自動化等各個行業(yè)中,幫助人們快速便捷工作。常見的OCR表格文字識別的流程,包括圖文輸入、預(yù)處理、行列分割和文字識別四個部分。
現(xiàn)有的實現(xiàn)OCR的算法包括支持向量機(SVM)、神經(jīng)網(wǎng)絡(luò)等,但是SVM算法對在訓(xùn)練樣本規(guī)模較大時難以實施,且在解決多分類的問題存在一定困難;傳統(tǒng)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)層次較少,當(dāng)用多層神經(jīng)網(wǎng)絡(luò)訓(xùn)練的時候會出現(xiàn)欠擬合的現(xiàn)象。目前在圖像方面效果較好的當(dāng)屬卷積神經(jīng)網(wǎng)絡(luò),其在傳統(tǒng)結(jié)構(gòu)上引入了在圖像處理中的數(shù)據(jù),包括濾波器組和多分辨率分析等,所以取得了令人矚目的結(jié)果。
卷積神經(jīng)網(wǎng)絡(luò)在90年代提出,最早用于手寫數(shù)字識別,并直到現(xiàn)在一直保持著在該問題的首要地位。近年來,隨著深度學(xué)習(xí)的興起,卷積神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于很多場景中,包括語音識別、通用物體識別、人臉識別、自然語言處理、運動分析,甚至在腦電波的分析方面都有突破,這源于其在特征提取和模型擬合上都超過淺層模型,其局部連接、權(quán)值共享及池化這些特性和操作,可以減少訓(xùn)練參數(shù)的數(shù)目,降低網(wǎng)絡(luò)的復(fù)雜度,具有強魯棒性和容錯能力。
發(fā)明內(nèi)容
本發(fā)明提供了一種環(huán)境影響評估報告書表格文字的提取方法,將環(huán)境影響評估報告中帶有項目基本信息的目標(biāo)表格識別出來,并從中提取文字信息,便于相關(guān)工作人員管理。
本發(fā)明提供了如下技術(shù)方案:
一種環(huán)境影響評估報告書表格文字的提取方法,包括以下步驟:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學(xué),未經(jīng)浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810583398.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 環(huán)境服務(wù)系統(tǒng)以及環(huán)境服務(wù)事業(yè)
- 環(huán)境控制裝置、環(huán)境控制方法、環(huán)境控制程序及環(huán)境控制系統(tǒng)
- 環(huán)境檢測終端和環(huán)境檢測系統(tǒng)
- 環(huán)境調(diào)整系統(tǒng)、環(huán)境調(diào)整方法及環(huán)境調(diào)整程序
- 環(huán)境估計裝置和環(huán)境估計方法
- 用于環(huán)境艙的環(huán)境控制系統(tǒng)及環(huán)境艙
- 車輛環(huán)境的環(huán)境數(shù)據(jù)處理
- 環(huán)境取樣動力頭、環(huán)境取樣方法
- 環(huán)境艙環(huán)境控制系統(tǒng)
- 環(huán)境檢測儀(環(huán)境貓)
- 大廈設(shè)備的作業(yè)報告書生成裝置
- 電梯的作業(yè)報告書作成方法及其作成裝置
- 信息解析報告書自動生成裝置、信息解析報告書自動生成程序以及信息解析報告書自動生成方法
- 帶認(rèn)證圖像的報告書生成系統(tǒng)
- 批檢驗標(biāo)準(zhǔn)里工序檢驗員名字自動加入成品報告書的方法
- 批檢驗標(biāo)準(zhǔn)設(shè)置檢驗項目時法定及內(nèi)控標(biāo)準(zhǔn)的檢測方法
- 數(shù)據(jù)認(rèn)證系統(tǒng)、服務(wù)器裝置、客戶端裝置、公開服務(wù)器和數(shù)據(jù)認(rèn)證方法
- 一種接地電阻測試自動化輔助系統(tǒng)
- 安全系統(tǒng)和該安全系統(tǒng)中使用的節(jié)點裝置
- 基于Matlab的計算報告書封面生成方法及計算機存儲介質(zhì)





