[發明專利]手寫數據生成方法、裝置、計算機設備和存儲介質在審
| 申請號: | 202111344936.2 | 申請日: | 2021-11-15 |
| 公開(公告)號: | CN114332305A | 公開(公告)日: | 2022-04-12 |
| 發明(設計)人: | 程謙;龍軍;高海潮 | 申請(專利權)人: | 深圳技德智能科技研究院有限公司 |
| 主分類號: | G06T11/60 | 分類號: | G06T11/60;G06F16/583;G06F16/51;G06V30/164;G06V30/146 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518055 廣東省深圳市南山區桃源街道福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 手寫 數據 生成 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種手寫數據生成方法,其特征在于,所述方法為:
獲取手寫單字數據集;所述數據集為字符圖片的集合,每類字符對應一個字符索引值,數據集的每類字符包含一定數量的字符圖片;每類字符與字符索引值形成字符索引表;
將數據集中的每類字符的圖片依次進行編號;
對數據集中的每類字符的圖片進行圖像處理,再進行層次聚類,濾除不符合要求的圖片;
獲取中文語料庫,對語料庫先分割、切分,再對語料庫的語料進行字符數量均衡處理;
遍歷語料庫的每條語料,對每條語料的字符獲取單字數據集中的字符圖片,并對字符圖片進行處理,形成手寫數據行,最終形成以行為單位的手寫數據集。
2.如權利要求1所述的手寫數據生成方法,其特征在于,所述對每條語料的字符獲取單字數據集中的字符圖片,并對字符圖片進行處理,形成手寫數據行,包括:
從語料庫中選取一條語料,遍歷該條語料中的字符{c1,c2,...,ck},根據字符索引表獲得該條語料每個字符對應的索引值{d1,d2,...,dk};獲得每個字符的圖片數量采用隨機算法確定參與拼接的字符圖片編號{t1,t2,...tk},根據字符索引表和每類字符的圖片編號獲取字符的索引值對應的字符圖片{p1,p2,...,pk},形成一行手寫數據。
3.如權利要求1所述的手寫數據生成方法,其特征在于,對字符圖片進行處理,包括:
設置手寫數據行圖片的尺寸,包括圖片的寬度、高度;
對每行字符圖片進行寬度高度同比例縮放;
對縮放后的字符圖片進行高度對齊;
順序拼接字符圖片。
4.如權利要求1所述的手寫數據生成方法,其特征在于,對數據集中的每類字符的圖片進行圖像處理,再進行層次聚類,濾除不符合要求的圖片,包括:
提取圖片的文字的筆跡內容,去除多余噪點,并將背景設置為白色;對圖片進行裁剪,使圖片中的文字與圖片邊緣貼齊;對第i類字符的Mi張圖片分別提取直方圖特征{Fj|j=1,2,...,Mi},對特征序列{Fj|j=1,2,...,Mi}進行層次聚類,以一定的閾值為邊界點剔除離群數據,濾除文字筆跡殘缺、字跡不清晰的圖片。
5.如權利要求1所述的手寫數據生成方法,其特征在于,獲取中文語料庫,對語料庫先分割、切分,再對語料庫的語料進行字符數量均衡處理,包括:
對每條語料以標點符號為分隔符進行分割,統計分割后的句子長度,以頻率最大的句子長度l作為單句平均長度;設置隨機切分長度L∈[1,2l),對長度大于L的語料進行切分;
對切分后的語料進行字符統計,剔除包含非字符索引表內字符的語料;對語料庫中每類字符進行頻數統計,對頻數較小的字符通過重復或插入字符進行語料增強。
6.一種手寫數據生成裝置,其特征在于,所述裝置包括:
存儲器,用于存儲程序;
處理器,用于執行所述存儲器中存儲的程序,當所述存儲器中存儲的程序被執行時,所述處理器用于執行如權利要求1至5中任一項所述方法的步驟。
7.一種計算機設備,包括存儲器和處理器,所述存儲器中存儲有計算機可讀指令,所述計算機可讀指令被所述處理器執行時,使得所述處理器執行如權利要求1至5中任一項所述方法的步驟。
8.一種存儲有計算機可讀指令的存儲介質,所述計算機可讀指令被一個或多個處理器執行時,使得一個或多個處理器執行如權利要求1至5中任一項所述方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳技德智能科技研究院有限公司,未經深圳技德智能科技研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111344936.2/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





