[發(fā)明專(zhuān)利]一種生成領(lǐng)域適應(yīng)支持向量機(jī)的方法在審
| 申請(qǐng)?zhí)枺?/td> | 201711085524.5 | 申請(qǐng)日: | 2017-11-07 |
| 公開(kāi)(公告)號(hào): | CN107885821A | 公開(kāi)(公告)日: | 2018-04-06 |
| 發(fā)明(設(shè)計(jì))人: | 董愛(ài)美 | 申請(qǐng)(專(zhuān)利權(quán))人: | 齊魯工業(yè)大學(xué) |
| 主分類(lèi)號(hào): | G06F17/30 | 分類(lèi)號(hào): | G06F17/30;G06K9/62 |
| 代理公司: | 濟(jì)南信達(dá)專(zhuān)利事務(wù)所有限公司37100 | 代理人: | 杜鵑花 |
| 地址: | 250353 山東省濟(jì)南*** | 國(guó)省代碼: | 山東;37 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 生成 領(lǐng)域 適應(yīng) 支持 向量 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及領(lǐng)域適應(yīng)學(xué)習(xí)領(lǐng)域,具體地說(shuō)是一種生成領(lǐng)域適應(yīng)支持向量機(jī)的方法。
背景技術(shù)
傳統(tǒng)機(jī)器學(xué)習(xí)的一個(gè)基本假設(shè)是訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)分布相同,其學(xué)習(xí)方法在傳統(tǒng)模式識(shí)識(shí)別領(lǐng)域已經(jīng)取得很大成功。目前機(jī)器學(xué)習(xí)領(lǐng)域出現(xiàn)了一些新應(yīng)用,與測(cè)試數(shù)據(jù)分布相同的訓(xùn)練數(shù)據(jù)數(shù)量非常少,采用傳統(tǒng)的機(jī)器學(xué)習(xí)方法不足以訓(xùn)練一個(gè)可靠的學(xué)習(xí)模型,但在相關(guān)領(lǐng)域中可能有大量的、相近分布的訓(xùn)練數(shù)據(jù),在新的領(lǐng)域如何有效利用相關(guān)領(lǐng)域的大量數(shù)據(jù)信息是非常重要的,這就是領(lǐng)域適應(yīng)學(xué)習(xí)所要探討的問(wèn)題。領(lǐng)域適應(yīng)學(xué)習(xí)是一種新穎的解決先驗(yàn)信息缺少的模式分類(lèi)問(wèn)題的有效方法,最大化地縮小領(lǐng)域間數(shù)據(jù)分布差別、充分挖掘領(lǐng)域間的共享隱含因素是領(lǐng)域適應(yīng)學(xué)習(xí)成功的關(guān)鍵因素之一。
針對(duì)源域數(shù)據(jù)含有大量標(biāo)簽數(shù)據(jù)和目標(biāo)域數(shù)據(jù)含有少量標(biāo)簽之應(yīng)用場(chǎng)景,當(dāng)前領(lǐng)域?qū)W習(xí)方法是以數(shù)據(jù)標(biāo)簽為主要依據(jù)挖掘領(lǐng)域間數(shù)據(jù)的共性,其存在的問(wèn)題有兩點(diǎn):1)源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)標(biāo)簽有可能存在誤標(biāo);2)目標(biāo)域數(shù)據(jù)數(shù)量太少并且有可能包含邊界數(shù)據(jù)之類(lèi)的異點(diǎn)數(shù)據(jù)。在存在誤標(biāo)的情況下,挖掘的領(lǐng)域間的共性信息其價(jià)值大大降低;目標(biāo)域數(shù)據(jù)量太少并且包含奇異點(diǎn)的情況下,使得原始有用信息利用率大大降低。
在領(lǐng)域適應(yīng)學(xué)習(xí)過(guò)程中,如何充分挖掘領(lǐng)域間數(shù)據(jù)的共性并克服對(duì)源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)標(biāo)簽的依賴(lài),是需要解決的技術(shù)問(wèn)題。
發(fā)明內(nèi)容
本發(fā)明的技術(shù)任務(wù)是針對(duì)以上不足,提供一種生成領(lǐng)域適應(yīng)支持向量機(jī)的方法,來(lái)解決在領(lǐng)域適應(yīng)學(xué)習(xí)中如何充分挖掘領(lǐng)域間數(shù)據(jù)的共性并克服對(duì)源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)標(biāo)簽的依賴(lài)的問(wèn)題。
本發(fā)明的技術(shù)任務(wù)是按以下方式實(shí)現(xiàn)的:
一種生成領(lǐng)域適應(yīng)支持向量機(jī)的方法,基于過(guò)取樣技術(shù)和隱特征抽取技術(shù)挖掘源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)的共性,并生成領(lǐng)域適應(yīng)支持向量機(jī),包括如下步驟:
S1、以源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)為基礎(chǔ),采用過(guò)取樣技術(shù)生成新的合成數(shù)據(jù);
S2、以合成數(shù)據(jù)和目標(biāo)域數(shù)據(jù)為基礎(chǔ),采用隱特征抽取技術(shù)挖掘合成數(shù)據(jù)和目標(biāo)域數(shù)據(jù)之間的共享隱特征空間;
S3、以目標(biāo)域數(shù)據(jù)為基礎(chǔ),在其原始特征空間和共享隱特征空間共同組成的擴(kuò)展后的特征空間上訓(xùn)練得到領(lǐng)域適應(yīng)支持向量機(jī)。
其中,以源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)為基礎(chǔ),采用過(guò)取樣技術(shù)生成新的合成數(shù)據(jù),擺脫了對(duì)源域數(shù)據(jù)標(biāo)簽的依賴(lài),且擴(kuò)大了目標(biāo)域數(shù)據(jù)的數(shù)量,再以合成數(shù)據(jù)和目標(biāo)域數(shù)據(jù)為基礎(chǔ),通過(guò)隱特征抽取技術(shù)充分挖掘合成數(shù)據(jù)和目標(biāo)域數(shù)據(jù)的共性,以大大提高領(lǐng)域間的共性信息,然后以目標(biāo)域數(shù)據(jù)為基礎(chǔ),在目標(biāo)域數(shù)據(jù)的原始特征空間和共享隱空間共同組成的擴(kuò)展后的特征空間上生成領(lǐng)域適應(yīng)支持向量機(jī),從而擺脫對(duì)源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)標(biāo)簽的依賴(lài)性。
上述步驟S2中隱特征抽取技術(shù),即特征抽取技術(shù),是模式識(shí)別領(lǐng)域的基本概念。它指的是通過(guò)某種特征映射將不同但相關(guān)領(lǐng)域的數(shù)據(jù)映射到一個(gè)低維的隱空間中。不同但相關(guān)領(lǐng)域的數(shù)據(jù)共享此低維空間。
進(jìn)一步的,步驟S1包括如下步驟:
S11、定義并初始化目標(biāo)域數(shù)據(jù)集合Dt、源域數(shù)據(jù)集合Ds和合成數(shù)據(jù)集S,設(shè)定過(guò)取樣因子和近鄰數(shù)參數(shù);
S12、將源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)合并在一起并隨機(jī)打亂順序,組成數(shù)據(jù)集合TR;
S13、以數(shù)據(jù)集合TR為基礎(chǔ),進(jìn)入循環(huán)過(guò)程生成合成數(shù)據(jù),每個(gè)合生數(shù)據(jù)的生成步驟包括:
S131、以數(shù)據(jù)集合TR中的一個(gè)現(xiàn)有數(shù)據(jù)E為基礎(chǔ),根據(jù)近鄰數(shù)參數(shù)尋找其近鄰數(shù)據(jù)N;
S132、計(jì)算現(xiàn)有數(shù)據(jù)E和其近鄰數(shù)據(jù)N的差別數(shù)據(jù)D;
S133、對(duì)差別數(shù)據(jù)D進(jìn)行歸一化操作,生成差別數(shù)據(jù)D';
S134、以差別數(shù)據(jù)D'和現(xiàn)有數(shù)據(jù)E為基礎(chǔ)生成合成數(shù)據(jù)。
進(jìn)一步的,步驟S2包括如下步驟:
S21、計(jì)算目標(biāo)域數(shù)據(jù)集Dt的基于parzen窗(英文全稱(chēng)為Parzen window,也稱(chēng)為核密度估計(jì)(kernel density estimation),是在概率論中用來(lái)估計(jì)未知的密度函數(shù),屬于非參數(shù)檢驗(yàn)方法之一)的概率密度分布以及合成數(shù)據(jù)集S的基于parzen窗的概率密度分布,分別表示為:
S22、計(jì)算在特征隱空間中目標(biāo)域數(shù)據(jù)集Dt密度分布以及合成數(shù)據(jù)集S的密度分布,分別表示為:
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于齊魯工業(yè)大學(xué),未經(jīng)齊魯工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711085524.5/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 適應(yīng)速度和適應(yīng)病人的假膝
- 帶寬適應(yīng)
- 自適應(yīng)均衡電路和自適應(yīng)均衡方法
- 適應(yīng)均衡裝置和適應(yīng)均衡方法
- 標(biāo)準(zhǔn)模式適應(yīng)裝置、標(biāo)準(zhǔn)模式適應(yīng)方法和標(biāo)準(zhǔn)模式適應(yīng)程序
- 攝像模組自適應(yīng)系統(tǒng)及其自適應(yīng)方法
- 彎頭自適應(yīng)耳塞及自適應(yīng)耳機(jī)
- 算法自適應(yīng)裝置和算法自適應(yīng)方法
- 域適應(yīng)
- 自適應(yīng)辨識(shí)系統(tǒng)、自適應(yīng)辨識(shí)裝置及自適應(yīng)辨識(shí)方法





