[發(fā)明專利]基于光學(xué)字符識別的附件分類方法、裝置、設(shè)備及介質(zhì)在審
| 申請?zhí)枺?/td> | 202111437898.5 | 申請日: | 2021-11-30 |
| 公開(公告)號: | CN114153972A | 公開(公告)日: | 2022-03-08 |
| 發(fā)明(設(shè)計)人: | 董潤華 | 申請(專利權(quán))人: | 深圳壹賬通智能科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62;G06V30/148;G06V30/413;G06V10/764 |
| 代理公司: | 深圳市沃德知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深圳市前海深港合作區(qū)前*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 光學(xué) 字符 識別 附件 分類 方法 裝置 設(shè)備 介質(zhì) | ||
本發(fā)明涉及智能決策技術(shù),揭露一種基于光學(xué)字符識別的附件分類方法,包括:獲取待分類圖片集經(jīng)過光學(xué)字符識別產(chǎn)生的文本附件集合,提取所述文本附件的真實類別及訓(xùn)練關(guān)鍵詞集與訓(xùn)練標(biāo)簽比值;利用訓(xùn)練關(guān)鍵詞集及訓(xùn)練標(biāo)簽比值配置原始附件分類器,利用原始附件分類器對所述文本附件預(yù)測,得到預(yù)測的附件類別及分值;將預(yù)測的附件類別與真實類別進(jìn)行比較得到預(yù)測正確率;根據(jù)預(yù)測正確率訓(xùn)練原始附件分類器,直至預(yù)測正確率大于訓(xùn)練閾值,得到標(biāo)準(zhǔn)附件分類器;利用標(biāo)準(zhǔn)附件分類器對待分類附件進(jìn)行分類。本發(fā)明還提出一種基于光學(xué)字符識別的附件分類裝置、電子設(shè)備以及存儲介質(zhì)。本發(fā)明可以解決光學(xué)字符識別掃描出的附件的分類不明確問題。
技術(shù)領(lǐng)域
本發(fā)明涉及智能決策技術(shù)領(lǐng)域,尤其涉及一種基于光學(xué)字符識別的附件分類方法、裝置、電子設(shè)備及計算機(jī)可讀存儲介質(zhì)。
背景技術(shù)
隨著計算機(jī)技術(shù)的普及,原本紙質(zhì)化的附件記錄逐漸被電子附件所取代,電子附件以其高效便捷的優(yōu)勢,被廣泛應(yīng)用于各行各業(yè)。
當(dāng)前電子附件的記錄大部分以圖片的形式進(jìn)行記載和保存,例如:合同協(xié)議、表格清單及發(fā)票單據(jù)等,且并未根據(jù)附件的類別或內(nèi)容進(jìn)行標(biāo)記,大多數(shù)情況都是用戶打開附件后才知道該附件具體記錄的圖片內(nèi)容及類別。這種附件的分類不明確的保存方式,使得用戶對附件的查詢效率極低。
發(fā)明內(nèi)容
本發(fā)明提供一種基于光學(xué)字符識別的附件分類方法、裝置及計算機(jī)可讀存儲介質(zhì),其主要目的在于解決光學(xué)字符識別掃描出的附件的分類不明確問題。
為實現(xiàn)上述目的,本發(fā)明提供的一種基于光學(xué)字符識別的附件分類方法,包括:
獲取待分類圖片集經(jīng)過光學(xué)字符識別產(chǎn)生的文本附件集合;
從所述文本附件集中逐一選擇其中一個文本附件,提取所述文本附件預(yù)先被標(biāo)注的真實類別及所述文本附件中所有的附件關(guān)鍵詞、段落標(biāo)簽及表格標(biāo)簽;
將所述文本附件中提取到的各個附件關(guān)鍵詞進(jìn)行組合,得到所述文本附件的訓(xùn)練關(guān)鍵詞集,并計算所述段落標(biāo)簽與所述表格標(biāo)簽在數(shù)量上的比值,得到訓(xùn)練標(biāo)簽比值;
利用所述訓(xùn)練關(guān)鍵詞集及所述訓(xùn)練標(biāo)簽比值,配置預(yù)構(gòu)建的原始附件分類器;
利用所述原始附件分類器對所述文本附件進(jìn)行分類預(yù)測,得到所述文本附件的附件類別及對應(yīng)的分值;
判斷所述分值是否小于預(yù)設(shè)的預(yù)測閾值;
當(dāng)所述分值小于預(yù)設(shè)的預(yù)測閾值時,利用所述分值對所述原始附件分類器進(jìn)行梯度調(diào)節(jié),并返回至上述的利用所述原始附件分類器對所述文本附件進(jìn)行分類預(yù)測,得到所述文本附件的附件類別及對應(yīng)的分值步驟;
當(dāng)所述分值大于或等于預(yù)設(shè)的預(yù)測閾值時,將所述預(yù)測得到的附件類別與所述文本附件的真實類別進(jìn)行比較,得到預(yù)測正確或者預(yù)測錯誤的預(yù)測結(jié)果;
匯總所述文本附件集中所有的文本附件的預(yù)測結(jié)果,得到預(yù)測正確率;
判斷所述預(yù)測正確率是否大于或等于預(yù)設(shè)的訓(xùn)練閾值;
若所述預(yù)測正確率小于所述訓(xùn)練閾值,返回上述的利用所述訓(xùn)練關(guān)鍵詞集及所述訓(xùn)練標(biāo)簽比值,配置預(yù)構(gòu)建的原始附件分類器的步驟,直至所述預(yù)測正確率大于或等于所述訓(xùn)練閾值,則停止所述迭代訓(xùn)練,得到標(biāo)準(zhǔn)附件分類器;
接收待分類附件,利用所述標(biāo)準(zhǔn)附件分類器對所述待分類附件進(jìn)行分類,得到所述待分類附件的分類結(jié)果。
可選的,所述利用所述原始附件分類器對所述文本附件進(jìn)行分類預(yù)測,得到所述文本附件的附件類別及對應(yīng)的分值,包括:
根據(jù)所述訓(xùn)練關(guān)鍵詞集中的每一個訓(xùn)練關(guān)鍵詞,在預(yù)構(gòu)建的附件類別評分表中的每一個附件類別下,對所述文本附件進(jìn)行評分,得到關(guān)鍵詞評分集;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳壹賬通智能科技有限公司,未經(jīng)深圳壹賬通智能科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111437898.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





