[發(fā)明專利]基于光學字符識別的附件分類方法、裝置、設備及介質在審
| 申請?zhí)枺?/td> | 202111437898.5 | 申請日: | 2021-11-30 |
| 公開(公告)號: | CN114153972A | 公開(公告)日: | 2022-03-08 |
| 發(fā)明(設計)人: | 董潤華 | 申請(專利權)人: | 深圳壹賬通智能科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62;G06V30/148;G06V30/413;G06V10/764 |
| 代理公司: | 深圳市沃德知識產(chǎn)權代理事務所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深圳市前海深港合作區(qū)前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 光學 字符 識別 附件 分類 方法 裝置 設備 介質 | ||
1.一種基于光學字符識別的附件分類方法,其特征在于,所述方法包括:
獲取待分類圖片集經(jīng)過光學字符識別產(chǎn)生的文本附件集合;
從所述文本附件集中逐一選擇其中一個文本附件,提取所述文本附件預先被標注的真實類別及所述文本附件中所有的附件關鍵詞、段落標簽及表格標簽;
將所述文本附件中提取到的各個附件關鍵詞進行組合,得到所述文本附件的訓練關鍵詞集,并計算所述段落標簽與所述表格標簽在數(shù)量上的比值,得到訓練標簽比值;
利用所述訓練關鍵詞集及所述訓練標簽比值,配置預構建的原始附件分類器;
利用所述原始附件分類器對所述文本附件進行分類預測,得到所述文本附件的附件類別及對應的分值;
判斷所述分值是否小于預設的預測閾值;
當所述分值小于預設的預測閾值時,利用所述分值對所述原始附件分類器進行梯度調節(jié),并返回至上述的利用所述原始附件分類器對所述文本附件進行分類預測,得到所述文本附件的附件類別及對應的分值步驟;
當所述分值大于或等于預設的預測閾值時,將所述預測得到的附件類別與所述文本附件的真實類別進行比較,得到預測正確或者預測錯誤的預測結果;
匯總所述文本附件集中所有的文本附件的預測結果,得到預測正確率;
判斷所述預測正確率是否大于或等于預設的訓練閾值;
若所述預測正確率小于所述訓練閾值,返回上述的利用所述訓練關鍵詞集及所述訓練標簽比值,配置預構建的原始附件分類器的步驟,直至所述預測正確率大于或等于所述訓練閾值,則停止所述迭代訓練,得到標準附件分類器;
接收待分類附件,利用所述標準附件分類器對所述待分類附件進行分類,得到所述待分類附件的分類結果。
2.如權利要求1所述的基于光學字符識別的附件分類方法,其特征在于,所述利用所述原始附件分類器對所述文本附件進行分類預測,得到所述文本附件的附件類別及對應的分值,包括:
根據(jù)所述訓練關鍵詞集中的每一個訓練關鍵詞,在預構建的附件類別評分表中的每一個附件類別下,對所述文本附件進行評分,得到關鍵詞評分集;
根據(jù)所述訓練標簽比值,在所述附件類別評分表中的每一個附件類別下,對所述文本附件進行評分,得到標簽比評分集;
根據(jù)所述關鍵詞評分集及所述標簽比評分集,構建所述文本附件在所述附件類別評分表中的每一個附件類別下的綜合評分,得到綜合評分集;
查詢所述綜合評分集中的最高綜合評分對應的附件類別,并將所述最高綜合評分對應的附件類別及所述最高綜合評分,作為所述文本附件的附件類別及對應的分值。
3.如權利要求2所述的基于光學字符識別的附件分類方法,其特征在于,所述根據(jù)所述關鍵詞評分集及所述標簽比評分集,構建所述文本附件在所述附件類別評分表中的每一個附件類別下的綜合評分,得到綜合評分集,包括:
疊加所述關鍵詞評分集中在同一附件類別下的評分,得到所述訓練關鍵詞集在每一個附件類別下的評分;
利用預構建的第一歸一化公式,對所述訓練關鍵詞集在每一個附件類別下的評分進行歸一化處理,得到關鍵詞歸一評分集;
利用預構建的第二歸一化公式,對所述標簽比評分集中的評分進行歸一化處理,得到標簽比歸一評分集;
對應疊加所述關鍵詞歸一評分集及所述標簽比歸一評分集中,在同一附件類別下的評分,得到所述綜合評分集。
4.如權利要求1所述的基于光學字符識別的附件分類方法,其特征在于,所述提取所述文本附件預先被標注的真實類別及所述文本附件中所有的附件關鍵詞、段落標簽及表格標簽,包括:
提取所述文本附件預設的附件編號,根據(jù)所述附件編號在預構建的訓練附件類別表中查詢所述文本附件預先被標注的真實類別;
將所述文本附件轉換為html格式,得到html附件;
根據(jù)預構建的附件關鍵詞集,提取所述html附件中所有的附件關鍵詞;
根據(jù)預設的附件段落標簽集,提取所述html附件中的所有段落標簽;
根據(jù)預設的附件表格標簽集,提取所述html附件中的所有表格標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳壹賬通智能科技有限公司,未經(jīng)深圳壹賬通智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111437898.5/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





