本發明實施例公開了圖片合成方法及裝置、文字識別系統,該方法包括:獲取原始語料信息,對原始語料信息篩選得到用于圖片合成的目標語料信息;將目標語料信息切分,得到多個字符集合,在多個字符集合中選擇一個目標字符集合;獲取字體文件,在字體文件中選擇一種字體作為目標字符集合的字體;獲取背景圖片,在背景圖片中選擇一張背景圖片作為目標字符集合的背景圖片;計算背景圖片的聚類中心和目標字符集合的字體顏色的色號的距離之和;將距離之和大于設定距離閾值顏色作為目標字符集合的顏色;將目標字符集合與背景圖片合成,得到合成圖片。提高合成圖片的豐富度以及真實性。
技術領域
本發明涉及文字識別領域,尤其涉及一種圖片合成方法及裝置、文字識別系統。
背景技術
OCR文字識別中由于中文漢字字符的龐大性,所以一般需要數以千萬的圖片才能訓練一個文字識別系統,訓練圖片的數據量成為了文字識別的一個需要迫切解決的問題。如果采用人工標注數以千萬的文字圖片,則會耗費大量的人力財力,在OCR文字識別業務場景中會出現訓練圖片不足,訓練圖片缺乏多樣性的問題。
發明內容
為解決上述問題,本發明實施例公開了一種圖片合成方法及裝置、文字識別系統,自動生成用于OCR文字識別的多樣化圖片。
一方面,本發明提供了一種圖片合成方法,該方法包括:獲取原始語料信息,對原始語料信息篩選得到用于圖片合成的目標語料信息;將目標語料信息切分,得到多個字符集合,在多個字符集合中選擇一個目標字符集合;獲取字體文件,在字體文件中選擇一種字體作為目標字符集合的字體;獲取背景圖片,在背景圖片中選擇一張背景圖片作為目標字符集合的背景圖片;計算背景圖片的聚類中心和目標字符集合的字體顏色的色號的距離之和;將距離之和大于設定距離閾值顏色作為目標字符集合的顏色;將目標字符集合與背景圖片合成,得到合成圖片。
上述技術方案具有如下有益效果:通過對目標語料信息進行切分,可以得到語義信息豐富的多個目標字符集合,從這些目標字符集合中隨機挑選與背景圖片合成的任一目標字符集合,實現合成圖片的語義多樣性;通過對目標字符集合的字體進行隨機選擇,實現合成圖片字體的多樣性;通過計算背景圖片的聚類中心與目標字符集合的字體顏色的色號之和,在距離之和大于設定距離閾值顏色中任選一個作為目標字符集合的顏色,大于距離閾值的顏色有多種,背景圖片的顏色也有多種,目標字符集合與背景圖片合成后能夠得到多種文字顏色的合成圖片,提高了合成圖片色彩的復雜性和豐富性。
可選的,篩選原始語料信息得到用于圖片合成的目標語料信息,包括:讀取字典文件,字典文件收錄有全部需要識別的單字符;讀取語料文件,語料文件收錄有原始語料信息;計算語料文件中的每一個單字符是否出現在字典文件中,若存在,保存單字符;若不存在,刪除單字符。
可選的,獲取背景圖片,在背景圖片中選擇一張背景圖片作為目標字符集合的背景圖片之后,該方法還包括;計算背景圖片的標準差;判斷標準差是否小于設定標準差閾值,得到第一判斷結果;若第一判斷結果為是,則背景圖片作為目標字符集合的背景圖片。
可選的,根據目標字符集合的字體大小裁剪背景圖片,以使背景圖片與目標字符集合大小相同。
可選的,將目標字符與背景圖片合成,得到合成圖片之后,該方法還包括:對合成圖片模糊處理、和/或噪聲處理。