[發(fā)明專利]一種基于可接受區(qū)域的高維小樣本數(shù)據(jù)擴(kuò)充方法在審
| 申請?zhí)枺?/td> | 202210840445.5 | 申請日: | 2022-07-18 |
| 公開(公告)號: | CN115169470A | 公開(公告)日: | 2022-10-11 |
| 發(fā)明(設(shè)計)人: | 陳志文;邸若海;呂志剛;王鵬;李曉艷;賀楚超;張玉芳;陳晨 | 申請(專利權(quán))人: | 西安工業(yè)大學(xué) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 西安新思維專利商標(biāo)事務(wù)所有限公司 61114 | 代理人: | 黃秦芳 |
| 地址: | 710032 陜*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 可接受 區(qū)域 高維小 樣本 數(shù)據(jù) 擴(kuò)充 方法 | ||
本發(fā)明為一種基于可接受區(qū)域的高維小樣本數(shù)據(jù)擴(kuò)充方法,其克服了現(xiàn)有技術(shù)中存在的難以生成合理虛擬數(shù)據(jù)、虛擬數(shù)據(jù)存在的特征組合錯誤、較難劃定有效的范圍限制虛擬數(shù)據(jù)的生成的問題。本發(fā)明包括以下步驟:步驟1:分析數(shù)據(jù)并確定數(shù)據(jù)的整體趨勢;步驟2:確定輸入特征之間的分布趨勢;步驟3:劃定可接受區(qū)域:針對每一個特征劃定其可接受區(qū)域Q,可接受區(qū)域由兩部分組成,一部分是廣義允許范圍Qa,另一部分是互影響存在范圍Qβ;步驟4:產(chǎn)生虛擬數(shù)據(jù):先在輸入特征空間的可接受區(qū)域QX內(nèi)基于小樣本與可接受區(qū)域的多元聯(lián)合概率分布采樣,再通過yq與X之間的關(guān)系映射到輸出特征空間,最終形成在輸出特征空間的可接受區(qū)域QY內(nèi)的虛擬數(shù)據(jù)。
技術(shù)領(lǐng)域:
本發(fā)明屬于虛擬數(shù)據(jù)擴(kuò)充技術(shù)領(lǐng)域,涉及一種基于可接受區(qū)域的高維小樣本數(shù)據(jù)擴(kuò)充方法,可用于小樣本數(shù)據(jù)集條件下針對實際問題中的時間序列進(jìn)行虛擬樣本生成,并利用生成的樣本進(jìn)行建模。
背景技術(shù):
小樣本存在數(shù)據(jù)量稀少情況下無法構(gòu)建有效機(jī)器學(xué)習(xí)模型的問題,主要有兩種技術(shù)途徑,一種是數(shù)據(jù)擴(kuò)充,另一種是模型優(yōu)化。本發(fā)明屬于數(shù)據(jù)擴(kuò)充方法這個范疇。
目前主流的數(shù)據(jù)擴(kuò)充方法有基于分布的虛擬樣本擴(kuò)充技術(shù)和基于先驗知識的虛擬樣本擴(kuò)充技術(shù)。基于分布的虛擬樣本擴(kuò)充技術(shù)有Bootstrap、整體趨勢擴(kuò)散(MTD)等。Bootstrap是一種重采樣技術(shù),其優(yōu)點是可以通過抽樣分布模擬真實分布,但缺點是并未產(chǎn)生新樣本,該方法只是對原始樣本集的再分配。MTD在某些場景中是公認(rèn)有效的虛擬樣本擴(kuò)充技術(shù),但由于該方法將每一種輸入特征單獨產(chǎn)生,存在虛擬數(shù)據(jù)組合錯誤導(dǎo)致虛擬樣本有效性差的問題。基于先驗知識的虛擬樣本擴(kuò)充技術(shù)是利用先驗知識或從有限樣本中提取知識后產(chǎn)生虛擬數(shù)據(jù)。在這類方法中,先驗知識的準(zhǔn)確程度直接決定了虛擬樣本的好壞。因此能否獲取準(zhǔn)確的先驗知識成為使用這類方法的決定因素。從有限樣本中提取知識來產(chǎn)生虛擬數(shù)據(jù)的方法則存在如何提取出有效的知識、判斷提取出的知識是否適用于該類對象等問題。
發(fā)明內(nèi)容:
本發(fā)明的目的在于提供一種基于可接受區(qū)域的高維小樣本數(shù)據(jù)擴(kuò)充方法,其克服了現(xiàn)有技術(shù)中存在的難以生成合理虛擬數(shù)據(jù)、虛擬數(shù)據(jù)存在的特征組合錯誤、較難劃定有效的范圍限制虛擬數(shù)據(jù)的生成的問題。本發(fā)明規(guī)避了在產(chǎn)生虛擬輸入特征時的組合錯誤問題,并避免了各種中間模型帶來的不確定性,能夠有效地在高維空間中生成符合小樣本數(shù)據(jù)特征的虛擬數(shù)據(jù)。
為實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案為:
一種基于可接受區(qū)域的高維小樣本數(shù)據(jù)擴(kuò)充方法,其特征在于:包括以下步驟:
步驟1:分析數(shù)據(jù)并確定數(shù)據(jù)的整體趨勢;
步驟2:確定輸入特征之間的分布趨勢;
步驟3:劃定可接受區(qū)域:
針對每一個特征劃定其可接受區(qū)域Q,可接受區(qū)域由兩部分組成,一部分是廣義允許范圍Qa,另一部分是互影響存在范圍Qβ;
可接受區(qū)域Q與廣義允許范圍Qa、互影響存在范圍Qβ的關(guān)系為:
步驟4:產(chǎn)生虛擬數(shù)據(jù):
先在輸入特征空間的可接受區(qū)域QX內(nèi)基于小樣本與可接受區(qū)域的多元聯(lián)合概率分布采樣,再通過yq與X之間的關(guān)系映射到輸出特征空間,最終形成在輸出特征空間的可接受區(qū)域QY內(nèi)的虛擬數(shù)據(jù)。
步驟3包括以下步驟
3.1設(shè)定廣義允許范圍;
3.2設(shè)定互影響存在范圍;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安工業(yè)大學(xué),未經(jīng)西安工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210840445.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





