[發明專利]一種任意字符組合的OCR數據生成的方法有效
| 申請號: | 202110978686.1 | 申請日: | 2021-08-25 |
| 公開(公告)號: | CN113435163B | 公開(公告)日: | 2021-11-16 |
| 發明(設計)人: | 苗功勛;孫強;陳姝;熊英超;韋文峰 | 申請(專利權)人: | 南京中孚信息技術有限公司 |
| 主分類號: | G06F40/109 | 分類號: | G06F40/109;G06F40/242;G06F40/279;G06K9/20 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 210000 江蘇省南京市浦*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 任意 字符 組合 ocr 數據 生成 方法 | ||
1.一種任意字符組合的OCR數據生成的方法,其特征在于:包括以下步驟:
S1:通過字符字典、字體庫和語料庫生成字符-字體映射字典,得到字符和所有支持的字體之間的對應關系,所述字符-字體映射字典的生成方式如下:
S11:讀取字符字典,初始化字符-字體映射字典為空;
S12:遍歷字體庫中的所有字體;
S13:分別讀取S12的字體支持的所有字符;
S14:遍歷S13中的所有字符,如果字體支持的字符在字符字典中,則在該字符支持的字體列表中添加此字體對象;
S15:字符-字體映射字典構建完成,得到了字符和所有支持的字體之間的對應關系;
S2:語料拆分;從語料庫中獲取待生成圖片的一行文本,切分文本成多個字符串,找到各個字符串與其對應的字體;
語料拆分的具體步驟如下:
S21:讀取待生成文本text中的第一個字符c;
S22:從字符-字體映射字典取出字符c對應的所有字體列表s,返回空或返回字體;
S23:根據S22中的返回值選擇減少字符循環S21或將返回值記為temp_font,直到找到第一個有字體支持的字符c;
S24:text為空或者字符返回的字體為空,結束所有步驟,否則遍歷當前的文本text中的每一個字符c;
S25:對于S24中的每一個字符c,進行迭代;
S26:temp_font不為空,則得到分出的最后一段文本temp_text和對應的字體temp_font,將兩者添加到文本-字體列表text_font_list中;
S3:圖片生成;將找到的各個字符串對應的字體選擇性按照水平和豎直兩種文字方向進行排列得到文字圖片,將排列后的文字圖片寬記為fina_width,高記為final_height,初始化為0;
S4:圖片拼接;將文字圖片選擇性按照水平和豎直兩種方向進行拼接得到最終圖片。
2.根據權利要求1所述的一種任意字符組合的OCR數據生成的方法,其特征在于:S1中,所述字符字典是語料中出現的所有字符,所述字體庫是所有想要使用的字體的集合,字體庫需滿足字符字典里的所有字符都至少有一個字體支持,所述語料庫是需要生成的文本內容。
3.根據權利要求1所述的一種任意字符組合的OCR數據生成的方法,其特征在于:S22中,所述從字符-字體映射字典取出字符c對應的所有字體列表s具體步驟如下:
S221:如果字符c不在字符-字體映射字典里或者列表s為空,則返回空,S22結束;
S222:如果列表s只有一個字體對象,則返回這個字體,S22結束;
S223:如果列表s有多個字體對象,則從列表s中隨機選取一個字體對象返回,S22結束。
4.根據權利要求1所述的一種任意字符組合的OCR數據生成的方法,其特征在于:S23中,所述找到第一個有字體支持的字符c,具體步驟如下:
S231:如果S22的返回值為空,且當前文本text不為空,則當前待生成的文本變成去掉第一個字符后的文本,即text=text[1:],回到S21,直到S22的返回值不為空,或者text變為空,S23結束;
S232:如果S22的返回值不為空,記S22的返回值為temp_font,該字體支持的所有字符列表記為temp_char_list,S23結束。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京中孚信息技術有限公司,未經南京中孚信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110978686.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種能源儲存系統
- 下一篇:一種用于塑料成型的沖洗、烘干、注塑一體式裝置





