[發(fā)明專利]表格標(biāo)準(zhǔn)化處理方法、裝置、設(shè)備及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202110441015.1 | 申請日: | 2021-04-23 |
| 公開(公告)號: | CN113033170B | 公開(公告)日: | 2023-08-04 |
| 發(fā)明(設(shè)計)人: | 戚思驊 | 申請(專利權(quán))人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06F40/18 | 分類號: | G06F40/18;G06F40/194;G06F40/258;G06F16/335;G06F16/35 |
| 代理公司: | 深圳中一聯(lián)合知識產(chǎn)權(quán)代理有限公司 44414 | 代理人: | 姚澤鑫 |
| 地址: | 518000 廣東省深圳市福田*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 表格 標(biāo)準(zhǔn)化 處理 方法 裝置 設(shè)備 存儲 介質(zhì) | ||
1.一種表格標(biāo)準(zhǔn)化處理方法,其特征在于,包括:
獲取待處理的表格,所述待處理的表格包括N行M列;
從所述待處理的表格中的第1行開始,對相鄰兩行的文本進(jìn)行相似度檢測,直至檢測到第i行和第i+1行的文本不一致時,確定第1行到第i行為標(biāo)題行,且第i+1行至第N行為數(shù)據(jù)行,1≤i≤N-1;
從所述待處理的表格中的第1列開始,對相鄰兩列的文本進(jìn)行相似度檢測,直至檢測到第j列和第j+1行的文本不一致時,確定第1列到第j列為標(biāo)題列,第j+1列至第M列為數(shù)據(jù)列,1≤j≤M-1;
所述待處理的表格中任一相鄰兩行的文本為一組文本對,所述待處理的表格中任一相鄰兩列的文本為一組文本對,對所述待處理的表格的任一文本對進(jìn)行相似度檢測的方法,包括:
將所述文本對中的第一文本和第二文本輸入到已訓(xùn)練的相似度檢測模型中進(jìn)行處理,得到所述第一文本和所述第二文本的相似度檢測結(jié)果,所述相似度檢測結(jié)果指示所述第一文本和所述第二文本一致或者不一致,所述第一文本和所述第二文本為所述待處理的表格中的相鄰兩行的文本或者相鄰兩列的文本;
其中,所述相似度檢測模型包括預(yù)訓(xùn)練語言模型、交叉注意層和全連接層,利用所述相似度檢測模型對所述文本對進(jìn)行處理包括:
將所述第一文本和所述第二文本輸入到所述預(yù)訓(xùn)練語言模型中進(jìn)行特征提取,得到第一特征向量和第二特征向量,計算所述第一特征向量中的每個值相對于所述第二特征向量中每個值的第一權(quán)重,根據(jù)所述第一權(quán)重對所述第一特征向量進(jìn)行加權(quán)求和計算,得到第三特征向量,計算所述第二特征向量中的每個值相對于所述第一特征向量中每個值的第二權(quán)重,根據(jù)所述第二權(quán)重對所述第二特征向量進(jìn)行加權(quán)求和計算,得到第四特征向量,將所述第三特征向量和所述第四特征向量進(jìn)行級聯(lián),得到高維特征向量,將所述高維特征向量輸入所述全連接層中進(jìn)行全連接計算,得到所述相似度檢測結(jié)果;
利用已訓(xùn)練的文本分類模型對確定的所述標(biāo)題行和所述標(biāo)題列中的標(biāo)題文本進(jìn)行分類,確定所述標(biāo)題文本在預(yù)設(shè)的標(biāo)準(zhǔn)庫中對應(yīng)的類別;
根據(jù)所述標(biāo)題文本在預(yù)設(shè)的標(biāo)準(zhǔn)庫中對應(yīng)的類別對所述標(biāo)題文本進(jìn)行文本篩選,得到預(yù)設(shè)的標(biāo)準(zhǔn)化標(biāo)題,所述標(biāo)準(zhǔn)化標(biāo)題為通過正則表達(dá)式從所述標(biāo)題文本中提取出與所述標(biāo)題本文的類別匹配的特定文本;
根據(jù)所述標(biāo)準(zhǔn)化標(biāo)題和所述標(biāo)準(zhǔn)化標(biāo)題在所述待處理的表格中對應(yīng)的數(shù)據(jù),得到所述待處理的表格的標(biāo)準(zhǔn)化表格。
2.如權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
若所述待處理的表格中每一組文本對的相似度檢測結(jié)果均為所述第一文本和所述第二文本一致,則確定所述待處理的表格為跨頁表格,并將所述跨頁表格與排序在所述跨頁表格前一位的第一表格進(jìn)行合并。
3.如權(quán)利要求2所述的方法,其特征在于,所述將所述跨頁表格與排序在所述跨頁表格前一位的第一表格進(jìn)行合并的方法,包括:
分別獲取所述跨頁表格和所述第一表格的行列數(shù);
若所述跨頁表格的行數(shù)與所述第一表格的行數(shù)相同,則進(jìn)行列合并;
若所述跨頁表格的列數(shù)與所述第一表格的列數(shù)相同,則進(jìn)行行合并。
4.如權(quán)利要求1至3任一所述的方法,其特征在于,所述獲取待處理的表格,包括:從表格數(shù)據(jù)源中獲取待處理的表格,所述表格數(shù)據(jù)源包括圖片格式型、PDF型或表格型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國平安人壽保險股份有限公司,未經(jīng)中國平安人壽保險股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110441015.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 版式表格的結(jié)構(gòu)處理方法和系統(tǒng)
- 多欄多列表格的展示方法
- 一種在移動端展示長表格的交互方法及系統(tǒng)裝置
- 一種在移動端縱向展示長表格的交互方法及系統(tǒng)裝置
- 一種在移動端橫向展示長表格的交互方法及系統(tǒng)裝置
- 表格圖像解析方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)
- 一種針對PDF文檔表格提取優(yōu)化方法及系統(tǒng)
- 一種自動生成表格數(shù)據(jù)的方法及裝置
- 一種批量合并表格內(nèi)容的方法、系統(tǒng)、裝置和存儲介質(zhì)
- 表格渲染顯示方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 標(biāo)準(zhǔn)化單杠
- 標(biāo)準(zhǔn)化天線
- 通信系統(tǒng)、通信裝置
- 快速參數(shù)匹配電源濾波器組合體
- 數(shù)據(jù)需求標(biāo)準(zhǔn)化方法及標(biāo)準(zhǔn)化系統(tǒng)
- 一種測井曲線標(biāo)準(zhǔn)化方法及系統(tǒng)
- 一種警情標(biāo)準(zhǔn)化錄入系統(tǒng)
- 數(shù)據(jù)標(biāo)準(zhǔn)化方法、裝置以及電子設(shè)備
- 標(biāo)準(zhǔn)化設(shè)計平臺及標(biāo)準(zhǔn)化設(shè)計方法
- 標(biāo)準(zhǔn)化泵房





