[發明專利]環境影響評估報告書表格文字的提取方法及系統有效
| 申請號: | 201810583398.4 | 申請日: | 2018-06-07 |
| 公開(公告)號: | CN108805076B | 公開(公告)日: | 2021-01-08 |
| 發明(設計)人: | 陳建海;儲蓉蓉;陳奇;何欽銘;翁海琴;沈欽仙 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/34;G06K9/62;G06N3/04 |
| 代理公司: | 杭州天勤知識產權代理有限公司 33224 | 代理人: | 高燕 |
| 地址: | 310013 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 環境 影響 評估 報告書 表格 文字 提取 方法 系統 | ||
1.一種環境影響評估報告書表格文字的提取方法,其特征在于,包括以下步驟:
(1)從環境影響評估報告書中識別出所有的表格,將識別出的表格以圖片格式保存;從環境影響評估報告書中識別出所有的表格,包括:
(1-1)采用基于LSD的直線檢測分割算法,識別、分割環境影響評估報告書中的直線,得到若干直線段,并記錄各個直線段的端點坐標;
(1-2)對直線段進行過濾,去除干擾直線段,包括:預設表格直線的長度閾值,若某直線段長度小于預設的長度閾值,則去除該直線段;
(1-3)求取過濾后剩余直線段的交點,方法為:若直線段A的端點a與直線段B的端點b之間的距離小于預設閾值,則認為直線段A與直線段B之間存在交點;求取端點a與端點b的坐標平均值,并將坐標平均值作為直線段A與直線段B的交點;
(1-4)根據所有過濾后剩余直線段之間的交點坐標,確定表格區域位置;
(2)基于卷積神經網絡,從所有表格圖片中識別出記錄有項目基本信息的目標表格圖片;包括:
(2-1)從環境影響評估報告書中提取表格圖片,并將記錄有項目基本信息的表格圖片作為目標表格圖片,標注為1;否則作為非目標表格圖片,標注為0,構建訓練集;
(2-2)構建基于卷積神經網絡的表格圖片分類器;
(2-3)利用訓練集訓練表格圖片分類器,直至表格圖片分類器收斂;
(2-4)通過訓練好的表格圖片分類器從步驟(1)獲得的表格圖片中識別目標表格圖片;
(3)從所述的目標表格圖片中提取文字信息,包括:
(3-1)識別目標表格圖片中的表格單元格,并記錄表格單元格的坐標位置,包括:
(3-1a)采用基于LSD的直線檢測分割算法,識別、分割目標表格圖片中的直線,得到若干直線段,并記錄各個直線段的端點坐標;
(3-1b)求取直線段的交點,方法為:若直線段A的端點a與直線段B的端點b之間的距離小于預設閾值,則認為直線段A與直線段B之間存在交點;求取端點a與端點b的坐標平均值,并將坐標平均值作為直線段A與直線段B的交點;
(3-1c)若直線段A與直線段B相交于一點且直線段A與直線段B垂直,則根據直線段A與直線段B,確定包含直線段A與直線段B的表格單元格的坐標位置;
(3-2)對表格單元格中的圖像進行字符切割,得到包含單個字符的字符圖片,包括:
(3-2a)對表格單元格中的圖像進行水平方向上的投影并進行切割,得到若干字符行;
(3-2b)對所述字符行進行垂直方向上的投影并進行切割,得到包含單個字符的字符圖片;
(3-3)構建并訓練基于卷積神經網絡的文字分類器,通過文字分類器對所述字符圖片進行識別,輸出相應文字;構建并訓練字體分類器,包括:
(3-3a)收集相應字體的文字圖片并進行標注,構建文字分類訓練集;
(3-3b)構建基于卷積神經網絡的文字分類器;
(3-3c)采用文字分類訓練集訓練文字分類器,直至文字分類器收斂。
2.根據權利要求1所述的環境影響評估報告書表格文字的提取方法,其特征在于,步驟(3-3)中,所述的文字分類器為長短期記憶網絡。
3.一種環境影響評估報告書表格文字的提取系統,其特征在于,包括:
表格識別模塊,從環境影響評估報告書中識別出所有的表格,將識別出的表格以圖片格式保存;
表格分類模塊,基于卷積神經網絡從所有表格圖片中識別出記錄有項目基本信息的目標表格圖片;
文字提取模塊,從所述的目標表格圖片中提取文字信息;
所述的提取系統根據權利要求1或2所述的提取方法從環境影響評估報告書中提取表格文字。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810583398.4/1.html,轉載請聲明來源鉆瓜專利網。





