[發明專利]表格結構化信息提取方法、裝置及電子設備有效
| 申請號: | 202110272444.0 | 申請日: | 2021-03-12 |
| 公開(公告)號: | CN113297308B | 公開(公告)日: | 2023-09-22 |
| 發明(設計)人: | 李壯 | 申請(專利權)人: | 貝殼找房(北京)科技有限公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F16/22 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 苗曉靜 |
| 地址: | 100080 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 表格 結構 信息 提取 方法 裝置 電子設備 | ||
1.一種表格結構化信息提取方法,其特征在于,包括:
提取圖片中表格包含的線段、所述線段的位置,表格中包含的文字內容以及所述文字內容的位置;
根據提取得到的線段、線段的位置、文字內容和文字內容的位置,將所述圖片中的表格進行重建,得到重建后的表格;
根據預先建立的表格結構解析關系,對所述重建后的表格進行結構化信息提取,得到與所述圖片中的表格對應的結構化信息;
所述根據提取得到的線段、線段的位置、文字內容和文字內容的位置,將所述圖片中的表格進行重建,得到重建后的表格,包括:
根據提取得到的線段和線段的位置,重建表格結構,具體包括:當圖片中的表格為直線表格時,提取表格中的線段和線段的位置,并根據提取得到的線段和線段的位置,重建表格結構;
當圖片中的表格為彎曲表格時,提取表格中的線段和線段的位置,并根據提取到的相鄰線段之間的夾角和距離判斷所提取得到的相鄰線段是否滿足合并條件,當滿足合并條件時,將所提取得到的相鄰線段進行合并,根據合并后的線段以及合并后的線段的位置,重建表格結構;
所述根據預先建立的表格結構解析關系,對所述重建后的表格進行結構化信息提取,得到與所述圖片中的表格對應的結構化信息,包括:
根據預先建立的表格結構解析關系中包含的單元格之間的key-value解析對應關系,提取所述重建后的表格中對應單元格的文字內容,并將提取的單元格的文字內容按照所述key-value解析對應關系進行結構化記錄。
2.根據權利要求1所述的表格結構化信息提取方法,其特征在于,所述根據提取得到的線段、線段的位置、文字內容和文字內容的位置,將所述圖片中的表格進行重建,得到重建后的表格,還包括:
根據重建后的所述表格結構,以及提取得到的文字內容和文字內容的位置,還原所述表格結構中的文字內容;
根據所述表格結構和還原的文字內容得到重建后的表格。
3.根據權利要求1所述的表格結構化信息提取方法,其特征在于,所述根據提取到的相鄰線段之間的夾角和距離判斷所提取得到的相鄰線段是否滿足合并條件,當滿足合并條件時,將所提取得到的相鄰線段進行合并,包括:
當提取到的相鄰兩條線段之間的夾角小于15°,且兩條線段之間的距離小于2像素時,將所述相鄰兩條線段進行合并。
4.根據權利要求1所述的表格結構化信息提取方法,其特征在于,當圖片中的表格為直線表格或者彎曲表格時,所述重建表格結構,包括:
根據提取得到的線段或合并后的線段與水平線的角度,將提取得到的線段或合并后的線段劃分為水平線段集合和豎直線段集合;其中,所述水平線段集合中包含至少一條水平線段;所述豎直線段集合中包含至少一條豎直線段;
確定所述水平線段集合中所有的水平線段與所述豎直線段集合中所有的豎直線段之間產生的交點,并根據產生的交點生成線段交點集合;
根據所述水平線段集合中所有的水平線段與所述豎直線段集合中所有的豎直線段,確定表格結構的左上角位置以及表格結構的最小單元格;
按照從左上到右下的行列順序,從所述左上角位置的最小單元格開始,判斷當前單元格的四個頂點是否都存在于所述線段交點集合中,若是,則確定所述當前單元格為有效單元格,同時記錄所述當前單元格的起止行列索引,并繼續判斷下一個最小單元格的四個頂點是否都存在于所述線段交點集合中,直至所述表格結構中的所有最小單元格均被遍歷。
5.根據權利要求4所述的表格結構化信息提取方法,其特征在于,若確定當前單元格的四個頂點不都存在于所述線段交點集合中,則確定所述當前單元格為無效單元格,同時在所述當前單元格的基礎上向右以列為單元逐次擴張直至確定擴張后的單元格的四個頂點均存在于所述線段交點集合中,相應地,記錄擴張后的單元格的起止行列索引,并繼續判斷下一個最小單元格的四個頂點是否都存在于所述線段交點集合中。
6.根據權利要求5所述的表格結構化信息提取方法,其特征在于,當以列為單元向右擴張至表格結構的最右側時仍未確定擴張后的單元格的四個頂點均存在于所述線段交點集合中,則向下增加一行,并重新向右以列為單元逐次擴張直至確定擴張后的單元格的四個頂點均存在于所述線段交點集合中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于貝殼找房(北京)科技有限公司,未經貝殼找房(北京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110272444.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:三維房型的生成方法、裝置及設備
- 下一篇:一種輪狀病毒滴定方法
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





