[發明專利]一種表格換行換頁的分析方法及裝置有效
| 申請號: | 201811304030.6 | 申請日: | 2018-11-03 |
| 公開(公告)號: | CN109460730B | 公開(公告)日: | 2022-06-17 |
| 發明(設計)人: | 李鵬輝;竺晨曦;邱錫鵬 | 申請(專利權)人: | 上海犀語科技有限公司 |
| 主分類號: | G06V30/416 | 分類號: | G06V30/416;G06V20/70;G06N20/00 |
| 代理公司: | 上海樂泓專利代理事務所(普通合伙) 31385 | 代理人: | 蘇杰 |
| 地址: | 200082 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 表格 換行 換頁 分析 方法 裝置 | ||
1.一種表格換行換頁的分析方法,包括以下步驟:
步驟1、通過兩段文本上面包含的左括號與下面包含的右括號、以及上下兩段文本所組合成的整個日期判斷明確的換行換頁情況;
步驟2、利用深度學習語言模型,獲取標注語料;
步驟3、根據標注語料、并通過訓練深度學習語言模型判斷相鄰兩個單元格是否能夠合并;
在步驟2中,獲取的標注語料包括相鄰兩行內容的語義信息、以及表格中相關聯的單元格信息。
2.根據權利要求1所述的一種表格換行換頁的分析方法,其特征在于,還包括步驟4、對合并后的單元格信息進行校驗,以提高判斷的準確度。
3.一種實施權利要求1中所述的一種表格換行換頁的分析方法的裝置,其特征在于,
包括:換行換頁情況判斷模塊、標注語料獲取模塊與單元格合并判斷模塊;
所述換行換頁情況判斷模塊,用于通過兩段文本上面包含的左括號與下面包含的右括號、以及上下兩段文本所組合成的整個日期判斷明確的換行換頁情況;
所述標注語料獲取模塊,用于利用深度學習模型,獲取標注語料;
所述單元格合并判斷模塊,用于根據標注語料、并通過訓練深度學習語言模型判斷相鄰兩個單元格是否能夠合并。
4.根據權利要求3所述的裝置,其特征在于,所述換行換頁情況判斷模塊通過兩段文本上面包含的左括號與下面包含的右括號、以及上下兩段文本所組合成的整個日期判斷明確的換行換頁情況。
5.根據權利要求3所述的裝置,其特征在于,所述標注語料獲取模塊所獲取的標注語料包括相鄰兩行內容的語義信息、以及表格中相關聯的單元格信息。
6.根據權利要求4或5所述的裝置,其特征在于,還包括校驗模塊,用于對合并后的單元格信息進行校驗,以提高判斷的準確度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海犀語科技有限公司,未經上海犀語科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811304030.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種嵌入式多人臉檢測方法及系統
- 下一篇:一種顯示裝置和指紋模組的貼合方法





