[發明專利]答案提取方法、裝置、計算機可讀介質及電子設備有效
| 申請號: | 202010922271.8 | 申請日: | 2020-09-04 |
| 公開(公告)號: | CN112036343B | 公開(公告)日: | 2022-02-08 |
| 發明(設計)人: | 郝昱;黃燦;文林福 | 申請(專利權)人: | 北京字節跳動網絡技術有限公司 |
| 主分類號: | G06V30/40 | 分類號: | G06V30/40;G06V10/22;G06V20/62;G06V10/26;G06V30/148;G06V30/10 |
| 代理公司: | 北京英創嘉友知識產權代理事務所(普通合伙) 11447 | 代理人: | 賈會玲 |
| 地址: | 100041 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 答案 提取 方法 裝置 計算機 可讀 介質 電子設備 | ||
1.一種答案提取方法,其特征在于,包括:
對答案圖像進行連通域提取,得到多個連通組件;
對每一所述連通組件分別進行識別,以確定所述連通組件中是否包含預設分隔符;
在存在包含所述預設分隔符的所述連通組件的情況下,提取被所述預設分隔符前后分隔開的文本區域的區域圖像,其中,前后相鄰的兩個所述文本區域之間被所述預設分隔符分隔開;
對所述區域圖像進行文本識別,以得到所述區域圖像對應的答案信息;
其中,所述提取被所述預設分隔符前后分隔開的文本區域的區域圖像,包括:
將包含所述預設分隔符和除所述預設分隔符之外的其他文本的連通組件,以所述預設分隔符為分界點,拆分成多個連通組件,其中,所述預設分隔符被拆分為一個獨立的連通組件,并且,拆分后得到的連通組件和未進行拆分的連通組件按照其在所述答案圖像中的前后順序排列;
按照所述連通組件的排列順序遍歷所述連通組件;
在當前遍歷到的所述連通組件不包含所述預設分隔符,且當前遍歷到的所述連通組件的前一連通組件也不包含所述預設分隔符的情況下,將當前遍歷到的所述連通組件與所述前一連通組件合并成一個連通組件,之后繼續遍歷;
在當前遍歷的所述連通組件包含所述預設分隔符的情況下,或者,在當前遍歷到的所述連通組件不包含所述預設分隔符,而所述前一連通組件中包含所述預設分隔符的情況下,繼續遍歷;
在遍歷完成后,將當前得到的不包含所述預設分隔符的連通組件確定為所述文本區域的區域圖像;
或者,在提取得到的所述多個連通組件按照其在所述答案圖像中的先后順序排列的情況下,所述提取被所述預設分隔符前后分隔開的文本區域的區域圖像,包括:
按照所述連通組件的排列順序遍歷所述連通組件;
在當前遍歷到的所述連通組件不包含所述預設分隔符,且當前遍歷到的所述連通組件的前一連通組件也不包含所述預設分隔符的情況下,將當前遍歷到的所述連通組件與所述前一連通組件合并成一個連通組件,之后繼續遍歷;
在當前遍歷到的所述連通組件包含所述預設分隔符和除所述預設分隔符之外的其他文本的情況下,以所述預設分隔符為分界點,將當前遍歷到的所述連通組件拆分成多個連通組件,并以拆分得到的最靠近所述前一連通組件的連通組件為起點繼續遍歷,其中,所述預設分隔符被拆分為一個獨立的連通組件;
在當前遍歷到的所述連通組件包含所述預設分隔符、且不包含除所述預設分隔符之外的其他文本的情況下,或者,在當前遍歷到的所述連通組件不包含所述預設分隔符,而所述前一連通組件中包含所述預設分隔符的情況下,繼續遍歷;
在遍歷完成后,將當前得到的不包含所述預設分隔符的連通組件確定為所述文本區域的區域圖像。
2.根據權利要求1所述的方法,其特征在于,所述對所述答案圖像進行連通域提取,得到多個連通組件,包括:
對所述答案圖像進行連通域提取;
對提取出的多個連通區域進行優化處理,其中,所述優化處理包括形態學處理和/或面積過濾;
將優化處理后得到的連通區域確定為所述連通組件。
3.根據權利要求1或2所述的方法,其特征在于,所述答案圖像中的文本為手寫體。
4.根據權利要求1或2所述的方法,其特征在于,所述方法還包括:
對所述區域圖像對應的答案信息進行對錯判定;
根據所述答案信息的對錯判定結果,對所述區域圖像進行顏色更新,以通過更新后的顏色表征所述判定結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京字節跳動網絡技術有限公司,未經北京字節跳動網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010922271.8/1.html,轉載請聲明來源鉆瓜專利網。





