[發(fā)明專利]一種基于語言模型的文本框的合并方法、裝置及電子設(shè)備有效

申請(qǐng)?zhí)枺?/td>	202011257776.3	申請(qǐng)日：	2020-11-11
公開（公告）號(hào)：	CN112101308B	公開（公告）日：	2021-02-09
發(fā)明（設(shè)計(jì)）人：	謝春鴻	申請(qǐng)（專利權(quán)）人：	北京云測信息技術(shù)有限公司
主分類號(hào)：	G06K9/00	分類號(hào)：	G06K9/00;G06K9/34;G06K9/62
代理公司：	北京國昊天誠知識(shí)產(chǎn)權(quán)代理有限公司 11315	代理人：	張黎;許振新
地址：	100016 北京市朝***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于語言模型文本框合并方法裝置電子設(shè)備
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本申請(qǐng)公開了一種基于語言模型的文本框的合并方法、裝置及其電子設(shè)備，用于解決現(xiàn)有技術(shù)中對(duì)文本框的合并和分離操作不夠準(zhǔn)確的問題。所述方法包括：獲取目標(biāo)界面中相鄰的第一文本框和第二文本框；通過目標(biāo)語言模型分別預(yù)測所述第一文本框?yàn)楠?dú)立文本框的第一概率、以及所述第二文本框?yàn)楠?dú)立文本框的第二概率；通過目標(biāo)語言模型預(yù)測第一文本框和第二文本框?yàn)楹喜⑽谋究虻牡谌怕剩换诘谝桓怕省⑺龅诙怕屎退龅谌怕剩_定是否對(duì)所述第一文本框和所述第二文本框進(jìn)行合并；其中，所述目標(biāo)語言模型為基于目標(biāo)領(lǐng)域的語料和所述目標(biāo)領(lǐng)域的預(yù)料中的詞語為標(biāo)簽訓(xùn)練得到的，第一文本框和第二文本框中的詞語屬于目標(biāo)領(lǐng)域。

技術(shù)領(lǐng)域

本申請(qǐng)涉及計(jì)算機(jī)技術(shù)領(lǐng)域，尤其涉及一種基于語言模型的文本框的合并方法、裝置及電子設(shè)備。

背景技術(shù)

目前，光學(xué)字符識(shí)別（Optical Character Recognition，OCR）的識(shí)別過程，一般包括文本框的檢測、對(duì)檢測出來的文本框進(jìn)行過濾、對(duì)文本框內(nèi)的文字進(jìn)行文字識(shí)別以及根據(jù)規(guī)則對(duì)識(shí)別出來的文本框進(jìn)行合并或分離。

現(xiàn)有技術(shù)在對(duì)文本框進(jìn)行合并或分離時(shí)，通常考慮的是兩個(gè)文本框中的文本是否具備相同的高度、是否在同一水平線上、水平距離、垂直距離等因素，并依據(jù)這些因素來決定是對(duì)相鄰的兩個(gè)文本框進(jìn)行合并或分離操作。然而，這種文本框的合并或分離方式會(huì)導(dǎo)致一些不應(yīng)該合并的文本框進(jìn)行了合并，或者對(duì)于需要合并的文本框卻保持了分離的狀態(tài)。

因此，如何準(zhǔn)確實(shí)現(xiàn)對(duì)文本框的合并和分離操作仍然需要提供進(jìn)一步的解決方案。

發(fā)明內(nèi)容

本申請(qǐng)實(shí)施例提供了一種基于語言模型的文本框的合并方法、裝置及電子設(shè)備，以解決現(xiàn)有技術(shù)中對(duì)文本框的合并和分離操作不夠準(zhǔn)確的問題。

為解決上述技術(shù)問題，本申請(qǐng)實(shí)施例是這樣實(shí)現(xiàn)的：

第一方面，提出了一種基于語言模型的文本框的合并方法，包括：

獲取目標(biāo)界面中相鄰的第一文本框和第二文本框；

通過目標(biāo)語言模型分別預(yù)測所述第一文本框?yàn)楠?dú)立文本框的第一概率、以及所述第二文本框?yàn)楠?dú)立文本框的第二概率；

通過所述目標(biāo)語言模型預(yù)測所述第一文本框和所述第二文本框?yàn)楹喜⑽谋究虻牡谌怕剩?/p>

基于所述第一概率、所述第二概率和所述第三概率，確定是否對(duì)所述第一文本框和所述第二文本框進(jìn)行合并；

其中，所述目標(biāo)語言模型為基于目標(biāo)領(lǐng)域的語料和所述目標(biāo)領(lǐng)域的預(yù)料中的詞語為標(biāo)簽訓(xùn)練得到的，所述第一文本框和所述第二文本框中的詞語屬于所述目標(biāo)領(lǐng)域。

第二方面，提出了一種基于語言模型的文本框的合并裝置，包括：

文本框獲取模塊，用于獲取目標(biāo)界面中相鄰的第一文本框和第二文本框；

第一預(yù)測模塊，用于通過目標(biāo)語言模型分別預(yù)測所述第一文本框?yàn)楠?dú)立文本框的第一概率、以及所述第二文本框?yàn)楠?dú)立文本框的第二概率；

第二預(yù)測模塊，用于通過所述目標(biāo)語言模型預(yù)測所述第一文本框和所述第二文本框?yàn)楹喜⑽谋究虻牡谌怕剩?/p>

文本框合并模塊，用于基于所述第一概率、所述第二概率和所述第三概率，確定是否對(duì)所述第一文本框和所述第二文本框進(jìn)行合并；

第三方面，提出了一種電子設(shè)備，該電子設(shè)備包括：

處理器；以及

被安排成存儲(chǔ)計(jì)算機(jī)可執(zhí)行指令的存儲(chǔ)器，所述可執(zhí)行指令在被執(zhí)行時(shí)使所述處理器執(zhí)行以下操作：

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京云測信息技術(shù)有限公司，未經(jīng)北京云測信息技術(shù)有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011257776.3/2.html，轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

上一篇：臨床試驗(yàn)信息訪問方法以及裝置
下一篇：一種具有致瘙癢活性的山藥蛋白提取物及其制備方法和應(yīng)用

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06K 數(shù)據(jù)識(shí)別；數(shù)據(jù)表示；記錄載體；記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形，例如，指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測或校正，例如，用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的，例如，由不同形狀的各個(gè)筆畫組成的，而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理，即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

滑坡模型實(shí)驗(yàn)?zāi)Ｐ图?/a>

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】