[發明專利]一種表格換行換頁的分析方法及裝置有效
| 申請號: | 201811304030.6 | 申請日: | 2018-11-03 |
| 公開(公告)號: | CN109460730B | 公開(公告)日: | 2022-06-17 |
| 發明(設計)人: | 李鵬輝;竺晨曦;邱錫鵬 | 申請(專利權)人: | 上海犀語科技有限公司 |
| 主分類號: | G06V30/416 | 分類號: | G06V30/416;G06V20/70;G06N20/00 |
| 代理公司: | 上海樂泓專利代理事務所(普通合伙) 31385 | 代理人: | 蘇杰 |
| 地址: | 200082 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 表格 換行 換頁 分析 方法 裝置 | ||
本發明提供一種表格換行換頁的分析方法,包括:通過專家經驗總結規則判斷明確的換行換頁情況;利用深度學習模型,獲取標注語料;根據標注語料、并通過訓練深度學習語言模型判斷相鄰兩個單元格是否能夠合并。實施上述方法的裝置,包括:用于通過專家經驗總結規則判斷明確的換行換頁情況的換行換頁情況判斷模塊;標注語料獲取模塊,用于利用深度學習模型,獲取標注語料的標注語料獲取模塊;用于根據標注語料、并通過訓練深度學習語言模型判斷相鄰兩個單元格是否能夠合并的單元格合并判斷模塊。本發明利用深度學習模型以挖掘表格中蘊含的語義信息,換行換頁場景中,能夠精確分析相鄰兩個單元格是否能夠合并的情況。
技術領域
本發明涉及一種識別方法,尤其是一種表格換行換頁的分析方法及裝置。
背景技術
近年來,深度學習技術在自然語言處理、圖形圖像、自動駕駛等多個領域得到大量應用,且表現效果要明顯優于傳統方法。
在自然語言處理領域,深度學習技術通過在高維空間中編碼文本文字,能夠捕獲深層次的語法和語義信息,從而為進一步從語義出發實現自然語言處理領域的高級應用提供了技術基礎。
在文本信息處理中,存在大量不同樣式的表格。當前技術對于表格信息的提取仍存在許多問題。如當出現換頁換行的時候,單純通過分隔線或簡單的規則難以判斷出換行或非換行的情況。對于無表格線的情況,計算機難以對相鄰兩行是否輸出同一單元格做出準確判斷。
發明內容
針對上述問題中存在的不足之處,本發明提供一種在換行換頁場景中,能夠精確分析相鄰兩個單元格是否能夠合并的
為實現上述目的,本發明提供一種表格換行換頁的分析方法,包括以下步驟:
步驟1、通過專家經驗總結規則判斷明確的換行換頁情況;
步驟2、利用深度學習模型,獲取標注語料;
步驟3、根據標注語料、并通過訓練深度學習語言模型判斷相鄰兩個單元格是否能夠合并。
上述的一種表格換行換頁的分析方法,其中,在步驟1中,通過兩段文本上面包含的左括號與下面包含的右括號、以及上下兩段文本所組合成的整個日期判斷明確的換行換頁情況。
上述的一種表格換行換頁的分析方法,其中,在步驟2中,獲取的標注語料包括相鄰兩行內容的語義信息、以及表格中相關聯的單元格信息。
上述的一種表格換行換頁的分析方法,其中,還包括步驟4、對合并后的單元格信息進行校驗,以提高判斷的準確度。
本發明還提供一種表格換行換頁的分析裝置,包括:換行換頁情況判斷模塊、標注語料獲取模塊與單元格合并判斷模塊;
所述換行換頁情況判斷模塊,用于通過專家經驗總結規則判斷明確的換行換頁情況;
所述標注語料獲取模塊,用于利用深度學習模型,獲取標注語料;
所述單元格合并判斷模塊,用于根據標注語料、并通過訓練深度學習語言模型判斷相鄰兩個單元格是否能夠合并。
上述的裝置,其中,所述換行換頁情況判斷模塊通過兩段文本上面包含的左括號與下面包含的右括號、以及上下兩段文本所組合成的整個日期判斷明確的換行換頁情況。
上述的裝置,其中,所述標注語料獲取模塊所獲取的標注語料包括相鄰兩行內容的語義信息、以及表格中相關聯的單元格信息。
上述的裝置,其中,還包括校驗模塊,用于對合并后的單元格信息進行校驗,以提高判斷的準確度。
與現有技術相比,本發明具有以下優點:
本發明利用深度學習模型以挖掘表格中蘊含的語義信息,換行換頁場景中,能夠精確分析相鄰兩個單元格是否能夠合并的情況。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海犀語科技有限公司,未經上海犀語科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811304030.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種嵌入式多人臉檢測方法及系統
- 下一篇:一種顯示裝置和指紋模組的貼合方法





