[發(fā)明專利]表格數(shù)據(jù)提取方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202011269426.9 | 申請日: | 2020-11-13 |
| 公開(公告)號: | CN112257400A | 公開(公告)日: | 2021-01-22 |
| 發(fā)明(設(shè)計(jì))人: | 朱龍軍 | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/18 | 分類號: | G06F40/18;G06F16/28 |
| 代理公司: | 廣州華進(jìn)聯(lián)合專利商標(biāo)代理有限公司 44224 | 代理人: | 黃晶晶 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 表格 數(shù)據(jù) 提取 方法 裝置 計(jì)算機(jī) 設(shè)備 存儲 介質(zhì) | ||
1.一種表格數(shù)據(jù)提取方法,其特征在于,所述方法包括:
獲取第一方向邊框缺失表格;
獲取所述第一方向邊框缺失表格中的關(guān)鍵字;
通過預(yù)設(shè)語言模型,識別不同表格單元中所述關(guān)鍵字的主從關(guān)系,所述預(yù)設(shè)語言模型用于識別關(guān)鍵字屬于同一語句的概率,所述不同表格單元為表格中沿第二方向的表格單元,所述第一方向?yàn)楸砀窳蟹较颍龅诙较驗(yàn)楸砀裥蟹较?,或所述第一方向?yàn)楸砀裥蟹较?,所述第二方向?yàn)楸砀窳蟹较颍?/p>
根據(jù)所述主從關(guān)系補(bǔ)充所述第一方向邊框缺失表格中的第一方向邊框,得到補(bǔ)充后的表格;
識別并提取所述補(bǔ)充后的表格內(nèi)的表格數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過預(yù)設(shè)語言模型,識別不同表格單元中所述關(guān)鍵字的主從關(guān)系包括:
通過預(yù)設(shè)語言模型,獲取所述關(guān)鍵字中,不同表格單元中關(guān)鍵字間的語言模型概率;
根據(jù)所述語言模型概率與預(yù)設(shè)模型概率閾值,獲取不同表格單元中所述關(guān)鍵字的主從關(guān)系。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過預(yù)設(shè)語言模型,識別不同表格單元中所述關(guān)鍵字的主從關(guān)系之前,還包括:
獲取歷史數(shù)據(jù)中的帶邊框完整表格;
獲取所述帶邊框完整表格中的關(guān)鍵字;
根據(jù)所述帶邊框完整表格中的關(guān)鍵字生成模型訓(xùn)練數(shù)據(jù);
基于所述模型訓(xùn)練數(shù)據(jù)對初始語言模型進(jìn)行訓(xùn)練,獲取預(yù)設(shè)語言模型。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述主從關(guān)系補(bǔ)充所述第一方向邊框缺失表格中的第一方向邊框包括:
當(dāng)不同表格單元的關(guān)鍵字間存在主從關(guān)系時(shí),在主關(guān)鍵字區(qū)域不補(bǔ)充第一方向邊框,在從關(guān)鍵字之間的留白位置,以及從關(guān)鍵字的鍵值之間的留白位置補(bǔ)充第一方向邊框。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取所述第一方向邊框缺失表格中的關(guān)鍵字包括:
通過留白切分法對所述第一方向邊框缺失表格進(jìn)行切分;
提取切分后的第一方向邊框缺失表格內(nèi)的關(guān)鍵字。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述識別并提取所述補(bǔ)充后的表格內(nèi)的表格數(shù)據(jù)包括:
識別所述補(bǔ)充后的表格內(nèi)線段間的線段交點(diǎn);
根據(jù)所述線段交點(diǎn)確定所述補(bǔ)充后的表格中的表格單元格;
聚合所述表格單元格,識別并提取所述補(bǔ)充后的表格內(nèi)的表格數(shù)據(jù)。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述根據(jù)所述線段交點(diǎn)確定所述補(bǔ)充后的表格中的表格單元格包括:
獲取所述線段交點(diǎn)間的共同邊;
根據(jù)所述線段交點(diǎn)間擁有共同邊所組成的最小矩形,確定所述補(bǔ)充后的表格中的表格單元格。
8.一種表格數(shù)據(jù)提取裝置,其特征在于,所述裝置包括:
表格獲取模塊,用于獲取第一方向邊框缺失表格;
關(guān)鍵字獲取模塊,用于獲取所述第一方向邊框缺失表格中的關(guān)鍵字;
主從關(guān)系識別模塊,用于通過預(yù)設(shè)語言模型,識別不同表格單元中所述關(guān)鍵字的主從關(guān)系,所述預(yù)設(shè)語言模型用于識別關(guān)鍵字屬于同一語句的概率,所述不同表格單元為表格中沿第二方向的表格單元,所述第一方向?yàn)楸砀窳蟹较?,所述第二方向?yàn)楸砀裥蟹较?,或所述第一方向?yàn)楸砀裥蟹较?,所述第二方向?yàn)楸砀窳蟹较颍?/p>
邊框補(bǔ)充模塊,用于根據(jù)所述主從關(guān)系補(bǔ)充所述第一方向邊框缺失表格中的第一方向邊框;
表格數(shù)據(jù)提取模塊,用于識別并提取所述補(bǔ)充后的表格內(nèi)的表格數(shù)據(jù)。
9.一種計(jì)算機(jī)設(shè)備,包括存儲器和處理器,所述存儲器存儲有計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述的方法的步驟。
10.一種計(jì)算機(jī)可讀存儲介質(zhì),存儲有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述的方法的步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011269426.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種整體環(huán)保封閉料棚
- 下一篇:一種中藥阿膠的煎服方法
- 版式表格的結(jié)構(gòu)處理方法和系統(tǒng)
- 多欄多列表格的展示方法
- 一種在移動端展示長表格的交互方法及系統(tǒng)裝置
- 一種在移動端縱向展示長表格的交互方法及系統(tǒng)裝置
- 一種在移動端橫向展示長表格的交互方法及系統(tǒng)裝置
- 表格圖像解析方法、裝置、計(jì)算機(jī)設(shè)備及存儲介質(zhì)
- 一種針對PDF文檔表格提取優(yōu)化方法及系統(tǒng)
- 一種自動生成表格數(shù)據(jù)的方法及裝置
- 一種批量合并表格內(nèi)容的方法、系統(tǒng)、裝置和存儲介質(zhì)
- 表格渲染顯示方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





