[發(fā)明專利]訓(xùn)練樣本優(yōu)化方法、裝置、設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202010219658.7 | 申請日: | 2020-03-25 |
| 公開(公告)號: | CN111401465A | 公開(公告)日: | 2020-07-10 |
| 發(fā)明(設(shè)計)人: | 章放;鄒雨晗;楊海軍;徐倩;楊強 | 申請(專利權(quán))人: | 深圳前海微眾銀行股份有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06K9/00;G06K9/54 |
| 代理公司: | 深圳市世紀(jì)恒程知識產(chǎn)權(quán)代理事務(wù)所 44287 | 代理人: | 徐進之 |
| 地址: | 518000 廣東省深圳市前海深港合作區(qū)前*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 訓(xùn)練 樣本 優(yōu)化 方法 裝置 設(shè)備 存儲 介質(zhì) | ||
本發(fā)明公開了一種訓(xùn)練樣本優(yōu)化方法、裝置、設(shè)備及存儲介質(zhì),所述方法包括:獲取用于模型訓(xùn)練的真實數(shù)據(jù)集和生成數(shù)據(jù)集;分別從所述真實數(shù)據(jù)集和所述生成數(shù)據(jù)集中進行有放回采樣,對應(yīng)得到真實采樣數(shù)據(jù)和生成采樣數(shù)據(jù),其中,所述真實采樣數(shù)據(jù)和所述生成采樣數(shù)據(jù)的數(shù)據(jù)量比例為預(yù)設(shè)的目標(biāo)比例;根據(jù)所述真實采樣數(shù)據(jù)和所述生成采樣數(shù)據(jù)得到用于模型訓(xùn)練的訓(xùn)練樣本集。本發(fā)明實現(xiàn)了能夠兼顧數(shù)據(jù)量比例和訓(xùn)練數(shù)據(jù)量,避免因比例失衡導(dǎo)致的模型訓(xùn)練效果差,也避免因訓(xùn)練數(shù)據(jù)量不足而導(dǎo)致模型訓(xùn)練效果差,也即,通過對訓(xùn)練樣本進行優(yōu)化,提高了模型的訓(xùn)練效果。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能領(lǐng)域,尤其涉及一種訓(xùn)練樣本優(yōu)化方法、裝置、設(shè)備及存儲介質(zhì)。
背景技術(shù)
現(xiàn)有的模型訓(xùn)練往往是需要大量的訓(xùn)練數(shù)據(jù)的,但是正常情況下,訓(xùn)練數(shù)據(jù)的獲取是很難的。
為了解決這個問題,現(xiàn)有做法是:采用人工生成仿真數(shù)據(jù)的方式,比如真實的數(shù)據(jù)有1萬個,但是太少了,想要10萬個,剩下的9萬個通過仿真數(shù)據(jù)來補足,然后就將這兩種數(shù)據(jù)混合然后拿去訓(xùn)練?,F(xiàn)有的這種方法,有一個缺陷:無法既保證有足夠的訓(xùn)練數(shù)據(jù)量,又保證真實數(shù)據(jù)和仿真數(shù)據(jù)的比例維持在目標(biāo)比例(例如1:1)上。因為真實數(shù)據(jù)的數(shù)據(jù)量是固定不變的,要保證足夠的訓(xùn)練數(shù)據(jù)量,只能增加仿真數(shù)據(jù)的數(shù)據(jù)量,然而增加仿真數(shù)據(jù)會導(dǎo)致比例失衡;要保證比例維持在目標(biāo)比例,又會導(dǎo)致仿真數(shù)據(jù)不能太多,從而無法達到足夠的訓(xùn)練數(shù)據(jù)量。因此,訓(xùn)練數(shù)據(jù)量與比例兩者不可兼得。
當(dāng)訓(xùn)練數(shù)據(jù)量不足時,會使得模型得不到充分訓(xùn)練而訓(xùn)練效果差;仿真數(shù)據(jù)跟真實的數(shù)據(jù)往往有著一定(甚至是較大)的差距,因此使用仿真數(shù)據(jù)進行訓(xùn)練得到的模型,并不如使用真實數(shù)據(jù)訓(xùn)練得到的模型效果好,特別是在仿真數(shù)據(jù)的數(shù)據(jù)量遠(yuǎn)大于真實數(shù)據(jù)時,也就是比例失衡時,就更加降低了模型訓(xùn)練效果。
發(fā)明內(nèi)容
本發(fā)明的主要目的在于提供一種訓(xùn)練樣本優(yōu)化方法、裝置、設(shè)備及存儲介質(zhì),旨在解決目前為解決訓(xùn)練樣本不足所采用的方式無法兼顧訓(xùn)練數(shù)據(jù)量和數(shù)據(jù)比例,從而導(dǎo)致模型訓(xùn)練效果差的問題。
為實現(xiàn)上述目的,本發(fā)明提供一種訓(xùn)練樣本優(yōu)化方法,所述訓(xùn)練樣本優(yōu)化方法包括以下步驟:
獲取用于模型訓(xùn)練的真實數(shù)據(jù)集和生成數(shù)據(jù)集;
分別從所述真實數(shù)據(jù)集和所述生成數(shù)據(jù)集中進行有放回采樣,對應(yīng)得到真實采樣數(shù)據(jù)和生成采樣數(shù)據(jù),其中,所述真實采樣數(shù)據(jù)和所述生成采樣數(shù)據(jù)的數(shù)據(jù)量比例為預(yù)設(shè)的目標(biāo)比例;
根據(jù)所述真實采樣數(shù)據(jù)和所述生成采樣數(shù)據(jù)得到用于模型訓(xùn)練的訓(xùn)練樣本集。
可選地,所述分別從所述真實數(shù)據(jù)集和所述生成數(shù)據(jù)集中進行有放回采樣,對應(yīng)得到真實采樣數(shù)據(jù)和生成采樣數(shù)據(jù)的步驟包括:
進行預(yù)設(shè)次數(shù)的采樣,其中,各次采樣分別從所述真實數(shù)據(jù)集和所述生成數(shù)據(jù)集中進行有放回采樣,對應(yīng)得到各次采樣的真實采樣數(shù)據(jù)和生成采樣數(shù)據(jù),各次采樣時從所述真實數(shù)據(jù)集和所述生成數(shù)據(jù)集中采樣的數(shù)據(jù)量比例為所述目標(biāo)比例;
所述根據(jù)所述真實采樣數(shù)據(jù)和所述生成采樣數(shù)據(jù)得到用于模型訓(xùn)練的訓(xùn)練樣本集的步驟包括:
分別將各次采樣的真實采樣數(shù)據(jù)和生成采樣數(shù)據(jù)進行混合,得到各次采樣對應(yīng)的訓(xùn)練批,根據(jù)各所述訓(xùn)練批得到用于模型訓(xùn)練的訓(xùn)練樣本集。
可選地,所述根據(jù)所述真實采樣數(shù)據(jù)和所述生成采樣數(shù)據(jù)得到用于模型訓(xùn)練的訓(xùn)練樣本集的步驟之后,還包括:
采用所述訓(xùn)練樣本集對待訓(xùn)練模型進行訓(xùn)練得到目標(biāo)模型。
可選地,所述采用所述訓(xùn)練樣本集對待訓(xùn)練模型進行訓(xùn)練得到目標(biāo)模型的步驟之后,還包括:
將獲取到的待識別文本圖片輸入所述目標(biāo)模型,得到所述待識別文本圖片的文本識別結(jié)果。
可選地,獲取用于模型訓(xùn)練的所述生成數(shù)據(jù)集的步驟包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳前海微眾銀行股份有限公司,未經(jīng)深圳前海微眾銀行股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010219658.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





