[發(fā)明專(zhuān)利]訓(xùn)練樣本優(yōu)化方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202010219658.7 | 申請(qǐng)日: | 2020-03-25 |
| 公開(kāi)(公告)號(hào): | CN111401465A | 公開(kāi)(公告)日: | 2020-07-10 |
| 發(fā)明(設(shè)計(jì))人: | 章放;鄒雨晗;楊海軍;徐倩;楊強(qiáng) | 申請(qǐng)(專(zhuān)利權(quán))人: | 深圳前海微眾銀行股份有限公司 |
| 主分類(lèi)號(hào): | G06K9/62 | 分類(lèi)號(hào): | G06K9/62;G06K9/00;G06K9/54 |
| 代理公司: | 深圳市世紀(jì)恒程知識(shí)產(chǎn)權(quán)代理事務(wù)所 44287 | 代理人: | 徐進(jìn)之 |
| 地址: | 518000 廣東省深圳市前海深港合作區(qū)前*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 訓(xùn)練 樣本 優(yōu)化 方法 裝置 設(shè)備 存儲(chǔ) 介質(zhì) | ||
1.一種訓(xùn)練樣本優(yōu)化方法,其特征在于,所述訓(xùn)練樣本優(yōu)化方法包括以下步驟:
獲取用于模型訓(xùn)練的真實(shí)數(shù)據(jù)集和生成數(shù)據(jù)集;
分別從所述真實(shí)數(shù)據(jù)集和所述生成數(shù)據(jù)集中進(jìn)行有放回采樣,對(duì)應(yīng)得到真實(shí)采樣數(shù)據(jù)和生成采樣數(shù)據(jù),其中,所述真實(shí)采樣數(shù)據(jù)和所述生成采樣數(shù)據(jù)的數(shù)據(jù)量比例為預(yù)設(shè)的目標(biāo)比例;
根據(jù)所述真實(shí)采樣數(shù)據(jù)和所述生成采樣數(shù)據(jù)得到用于模型訓(xùn)練的訓(xùn)練樣本集。
2.如權(quán)利要求1所述的訓(xùn)練樣本優(yōu)化方法,其特征在于,所述分別從所述真實(shí)數(shù)據(jù)集和所述生成數(shù)據(jù)集中進(jìn)行有放回采樣,對(duì)應(yīng)得到真實(shí)采樣數(shù)據(jù)和生成采樣數(shù)據(jù)的步驟包括:
進(jìn)行預(yù)設(shè)次數(shù)的采樣,其中,各次采樣分別從所述真實(shí)數(shù)據(jù)集和所述生成數(shù)據(jù)集中進(jìn)行有放回采樣,對(duì)應(yīng)得到各次采樣的真實(shí)采樣數(shù)據(jù)和生成采樣數(shù)據(jù),各次采樣時(shí)從所述真實(shí)數(shù)據(jù)集和所述生成數(shù)據(jù)集中采樣的數(shù)據(jù)量比例為所述目標(biāo)比例;
所述根據(jù)所述真實(shí)采樣數(shù)據(jù)和所述生成采樣數(shù)據(jù)得到用于模型訓(xùn)練的訓(xùn)練樣本集的步驟包括:
分別將各次采樣的真實(shí)采樣數(shù)據(jù)和生成采樣數(shù)據(jù)進(jìn)行混合,得到各次采樣對(duì)應(yīng)的訓(xùn)練批,根據(jù)各所述訓(xùn)練批得到用于模型訓(xùn)練的訓(xùn)練樣本集。
3.如權(quán)利要求1所述的訓(xùn)練樣本優(yōu)化方法,其特征在于,所述根據(jù)所述真實(shí)采樣數(shù)據(jù)和所述生成采樣數(shù)據(jù)得到用于模型訓(xùn)練的訓(xùn)練樣本集的步驟之后,還包括:
采用所述訓(xùn)練樣本集對(duì)待訓(xùn)練模型進(jìn)行訓(xùn)練得到目標(biāo)模型。
4.如權(quán)利要求3所述的訓(xùn)練樣本優(yōu)化方法,其特征在于,所述采用所述訓(xùn)練樣本集對(duì)待訓(xùn)練模型進(jìn)行訓(xùn)練得到目標(biāo)模型的步驟之后,還包括:
將獲取到的待識(shí)別文本圖片輸入所述目標(biāo)模型,得到所述待識(shí)別文本圖片的文本識(shí)別結(jié)果。
5.如權(quán)利要求4所述的訓(xùn)練樣本優(yōu)化方法,其特征在于,獲取用于模型訓(xùn)練的生成數(shù)據(jù)集的步驟包括:
獲取背景圖片庫(kù)、文本字體庫(kù)和文本內(nèi)容庫(kù);
從所述背景圖片庫(kù)中獲取目標(biāo)背景圖片,從所述文本字體庫(kù)中獲取目標(biāo)文本字體,以及從所述文本內(nèi)容庫(kù)中獲取目標(biāo)文本內(nèi)容;
將所述目標(biāo)文本內(nèi)容按照所述目標(biāo)文本字體拼接至所述目標(biāo)背景圖片中,得到生成文本圖片;
根據(jù)各生成文本圖片得到所述生成數(shù)據(jù)集。
6.如權(quán)利要求1至5任一項(xiàng)所述的訓(xùn)練樣本優(yōu)化方法,其特征在于,所述根據(jù)所述真實(shí)采樣數(shù)據(jù)和所述生成采樣數(shù)據(jù)得到用于模型訓(xùn)練的訓(xùn)練樣本集的步驟包括:
對(duì)所述真實(shí)采樣數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)操作,并根據(jù)所述生成采樣數(shù)據(jù)和數(shù)據(jù)增強(qiáng)后的真實(shí)采樣數(shù)據(jù)得到用于模型訓(xùn)練的訓(xùn)練樣本集;或,
對(duì)所述生成采樣數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)操作,并根據(jù)所述真實(shí)采樣數(shù)據(jù)和數(shù)據(jù)增強(qiáng)后的生成采樣數(shù)據(jù)得到用于模型訓(xùn)練的訓(xùn)練樣本集;或,
對(duì)所述真實(shí)采樣數(shù)據(jù)和所述生成采樣數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)操作,并根據(jù)數(shù)據(jù)增強(qiáng)后的真實(shí)采樣數(shù)據(jù)和生成采樣數(shù)據(jù)得到用于模型訓(xùn)練的訓(xùn)練樣本集。
7.如權(quán)利要求6所述的訓(xùn)練樣本優(yōu)化方法,其特征在于,所述數(shù)據(jù)增強(qiáng)操作包括拉伸操作、加噪聲操作、模糊操作和銳化操作中的一種或多種。
8.一種訓(xùn)練樣本優(yōu)化裝置,其特征在于,所述訓(xùn)練樣本優(yōu)化裝置包括:
獲取模塊,用于獲取用于模型訓(xùn)練的真實(shí)數(shù)據(jù)集和生成數(shù)據(jù)集;
采樣模塊,用于分別從所述真實(shí)數(shù)據(jù)集和所述生成數(shù)據(jù)集中進(jìn)行有放回采樣,對(duì)應(yīng)得到真實(shí)采樣數(shù)據(jù)和生成采樣數(shù)據(jù),其中,所述真實(shí)采樣數(shù)據(jù)和所述生成采樣數(shù)據(jù)的數(shù)據(jù)量比例為預(yù)設(shè)的目標(biāo)比例;
樣本生成模塊,用于根據(jù)所述真實(shí)采樣數(shù)據(jù)和所述生成采樣數(shù)據(jù)得到用于模型訓(xùn)練的訓(xùn)練樣本集。
9.一種訓(xùn)練樣本優(yōu)化設(shè)備,其特征在于,所述訓(xùn)練樣本優(yōu)化設(shè)備包括:存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的訓(xùn)練樣本優(yōu)化程序,所述訓(xùn)練樣本優(yōu)化程序被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述的訓(xùn)練樣本優(yōu)化方法的步驟。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有訓(xùn)練樣本優(yōu)化程序,所述訓(xùn)練樣本優(yōu)化程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述的訓(xùn)練樣本優(yōu)化方法的步驟。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于深圳前海微眾銀行股份有限公司,未經(jīng)深圳前海微眾銀行股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010219658.7/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 等級(jí)精細(xì)視力訓(xùn)練表
- 視覺(jué)盲點(diǎn)演示與旁中心注視訓(xùn)練儀
- 一種訓(xùn)練室
- 視覺(jué)盲點(diǎn)演示與旁中心注視訓(xùn)練儀
- 一種訓(xùn)練室
- 康復(fù)訓(xùn)練器及其定量訓(xùn)練方法和定量訓(xùn)練裝置
- 一種分布式訓(xùn)練中梯度同步方法及裝置
- 訓(xùn)練模型的訓(xùn)練時(shí)長(zhǎng)預(yù)測(cè)方法及裝置
- 一種模型訓(xùn)練方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種計(jì)算機(jī)輔助的自閉癥兒童情感社交康復(fù)訓(xùn)練系統(tǒng)
- 樣本引入裝置、樣本引入基片和樣本引入方法
- 樣本查找方法、裝置及系統(tǒng)
- 模型訓(xùn)練、樣本平衡方法及裝置以及個(gè)人信用評(píng)分系統(tǒng)
- 樣本輸送系統(tǒng)、樣本輸送方法以及樣本檢測(cè)系統(tǒng)
- 樣本分析裝置、樣本檢測(cè)設(shè)備及樣本檢測(cè)方法
- 樣本檢測(cè)方法、樣本檢測(cè)裝置及樣本檢測(cè)系統(tǒng)
- 樣本架、樣本混勻系統(tǒng)及樣本分析儀
- 樣本收集管及樣本收集系統(tǒng)
- 樣本數(shù)據(jù)集的擴(kuò)容方法及模型的訓(xùn)練方法
- 行人重識(shí)別的噪聲樣本識(shí)別方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





