[發(fā)明專利]基于樣本先驗信息的支持向量機核函數(shù)選擇方法及應用有效
| 申請?zhí)枺?/td> | 201310475813.1 | 申請日: | 2013-10-13 |
| 公開(公告)號: | CN103489007A | 公開(公告)日: | 2014-01-01 |
| 發(fā)明(設計)人: | 梁禮明;鐘震;楊國亮;葛繼;翁發(fā)祿 | 申請(專利權)人: | 江西理工大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 贛州凌云專利事務所 36116 | 代理人: | 曾上 |
| 地址: | 341000 *** | 國省代碼: | 江西;36 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 樣本 先驗 信息 支持 向量 函數(shù) 選擇 方法 應用 | ||
技術領域
本發(fā)明涉及一種基于樣本數(shù)據(jù)先驗信息的支持向量機核函數(shù)選擇方法及應用,尤其適用于實時在線的支持向量機模型預測控制場所。
背景技術
支持向量機(Support?Vector?Machine,SVM)是20世紀90年代Vapnik基于統(tǒng)計學習理論提出的一種新的機器學習方法。與傳統(tǒng)統(tǒng)計學相比,支持向量機有完備的理論基礎和嚴格的理論體系,能夠解決有限樣本的學習問題,具有很強的泛化能力。由于這一方法具有許多優(yōu)良特性,并在不少領域如模式識別、回歸估計、數(shù)據(jù)挖掘、生物信息學等領域均取得成功的應用。SVM建立在結構風險最小化原則基礎之上,其核心思想之一是引入核函數(shù)技術,巧妙地解決了在高維特征空間中計算的“維數(shù)災難”等問題。然而,不同的核函數(shù)所呈現(xiàn)出的特性各異,選擇不同的核函數(shù)會導致SVM的推廣性能有所不同。目前,如何針對具體問題選擇(或構造)合適的核函數(shù),缺乏相應的理論指導,存在很大的隨意性和局限性,也是SVM應用領域遇到的一個重大難題。因此,構建一種能充分挖掘給定具體問題的樣本數(shù)據(jù)先驗信息,以及結合核函數(shù)蘊藏的度量特征進行SVM核函數(shù)選擇機制,對于SVM技術的發(fā)展和核方法的完善有著積極的指導意義和實用價值。
發(fā)明內容
本發(fā)明的目的是提供一種基于樣本先驗信息的支持向量機核函數(shù)選擇方法及應用,從樣本數(shù)據(jù)先驗信息出發(fā)構建一種有監(jiān)督的SVM核函數(shù)選擇機制,完善SVM核函數(shù)選擇方法,有助于SVM學習能力和泛化能力的提高。
本發(fā)明的技術方案:一種基于樣本先驗信息的支持向量機核函數(shù)選擇方法,包括如下步驟:
步驟1.輸入樣本數(shù)據(jù)其中Rn為n維數(shù)據(jù)空間,并對X進行變換使數(shù)據(jù)的范數(shù)小于1;
步驟2.對給定樣本數(shù)據(jù)進行超球體的數(shù)學描述以及確定超球體的重心O和半徑R;
步驟3.建立樣本分布能量熵函數(shù),并計算各樣本的能量熵;
步驟4.構建樣本分布判別函數(shù)及計算其判別結果;
步驟5.根據(jù)其判別結果與核函數(shù)性質(如黎曼度量、距離度量等)的相似性選擇核函數(shù)類型;
步驟6.合理確定樣本訓練集和測試集后,SVM模型及參數(shù)優(yōu)化;
步驟7.輸出預測結果。
一種基于樣本先驗信息的支持向量機核函數(shù)選擇方法在印度肝臟病人數(shù)據(jù)集、天平平衡測量數(shù)據(jù)集、澳大利亞的信用審批數(shù)據(jù)集、三連棋游戲結局數(shù)據(jù)集得到應用。
本發(fā)明構建了一種基于樣本先驗信息進行SVM核函數(shù)選擇的機制,克服了傳統(tǒng)的支持向量機模型選擇方法中人為指定核函數(shù)類型而導致模型不能達到最優(yōu)性能的缺點,提高了SVM學習能力和泛化能力,并具有運算速度快、非常適合實時在線SVM模型預測控制場所等特點。
具體實施方式
下面結合具體實例對本發(fā)明作進一步說明。
①所涉及的實例均來自UCI基準庫,且為帶標簽的數(shù)據(jù);
②以具有全局特性的多項式核函數(shù)和局部特性的徑向基核函數(shù)為例進行預測結果比較;
③實例中第i個樣本的能量熵函數(shù)取其中dio為第i個樣本與重心O的歐氏距離;
④實例中樣本分布判別函數(shù)定義為式中α為閾值,l為樣本總數(shù),l*為樣本中的個數(shù)。結合核函數(shù)所蘊藏的度量特性,實例中取α=0.5為臨界點。當計算出α>0.5,則判斷該樣本數(shù)據(jù)呈局部分布特性;當α≤0.5,則判斷該樣本數(shù)據(jù)呈全局分布特性。
⑤訓練集與測試集的數(shù)據(jù)樣本數(shù)量按照8:2比例予以隨機劃分;
⑥實例中SVM模型參數(shù)優(yōu)化均采取粒子群算法(PSO)進行尋優(yōu);
⑦百分數(shù)均為SVM模型輸出結果預測準確率。
實例1:印度肝臟病人數(shù)據(jù)集(Indian?Liver?Patient?Dataset)
A步驟:樣本共有579個數(shù)據(jù),維數(shù)為10。經(jīng)數(shù)據(jù)預處理后計算出超球體的重心O坐標為(0.5058,0.0000,0.1073,0.1786,0.085,0.3473,0.1652,0.4493,0.5326,0.4500),R=0.4984,α=0.9048。
由此判斷該樣本數(shù)據(jù)呈局部分布特性,則選取具有局部特性的徑向基核函數(shù)為SVM核函數(shù)類型。
B步驟:按照已知樣本的80%作為訓練集、20%作為測試集,則取樣本中的464個作為訓練集、115組做為測試集。
C步驟:隨機選出3組數(shù)據(jù):
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江西理工大學,未經(jīng)江西理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310475813.1/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種抗開裂皮革的生產(chǎn)方法
- 下一篇:噴頭
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現(xiàn)方法和信息再現(xiàn)設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





