[發明專利]一種基于信度決策樹的自訓練學習方法在審
| 申請號: | 202010142693.3 | 申請日: | 2020-03-04 |
| 公開(公告)號: | CN111368913A | 公開(公告)日: | 2020-07-03 |
| 發明(設計)人: | 鄒俊韜;燕雪峰;周勇 | 申請(專利權)人: | 南京航空航天大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 葛瀟敏 |
| 地址: | 210016 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 信度 決策樹 訓練 學習方法 | ||
本發明公開一種基于信度決策樹的自訓練學習方法,屬于數據處理領域;首先對收集到的數據進行預處理,使用證據理論對未標記樣本進行表述,提取證據中心然后利用標記樣本數據訓練信度決策樹,并對未標記樣本數據進行預測;使用結合Jousselme距離與概率的判別方式,挑選置信度較高的未標記樣本加入標記樣本訓練集,讓訓練出的初始分類器有較高的準確性,提高自訓練方法的泛化性。本發明使得自訓練方法能夠良好的適應決策樹模型,且能夠有效的提高對于數據分類的準確度與魯棒性。
技術領域
本發明公開了一種基于信度決策樹的自訓練學習方法,主要用于解決對無標簽樣本數據的分類問題,本發明涉及數據挖掘領域。
背景技術
半監督學習是解決對部分未標記的數據訓練問題的方法,在數據挖掘領域一直有著良好的應用。雖然通過半監督學習將有標記和未標記的樣本相結合來對基礎模型訓練在某些模型和方法上取得了顯著成效,但是一些學者認為,使用未標記樣本來訓練學習器可能會由于將錯誤預測的數據添加到訓練集中,從而導致學習器性能的退化。但是當所假設的模型為正確的時候,或者其對于無標簽樣本類別的預測準確率大于錯誤預測率時,學習器能夠從無標簽的樣本中學習到知識,從而提高性能。
在半監督學習中,決策樹由于其無法對預測產生可靠的概率估計,使其作為基礎學習器不能有效地應用于自訓練算法中。對于決策樹而言,由于其本身的特性,倘若直接將其作為自訓練的基礎模型會導致最終訓練表現結果并不理想。其主要原因在于兩點:1、由于決策樹節點中數據采用劃分方式將父節點中的數據劃分到子節點中,所以決策樹葉子節點的樣本數目往往較少,所分得具有標記的數據數量有限,導致難以進行篩選;2、決策樹同一個葉子節點之中的數據對象具有相同的概率估計,這將導致同一個葉節點之中的數據對象擁有一樣的篩選條件,不能有效的將相同葉節點之中的數據在自訓練的選擇步驟中區別開來。
將半監督學習應用在決策樹的擴展之中將主要挑戰如下:在使用決策樹為基礎分類器的自訓練學習中,根據葉節點中樣本預測的概率估計選擇出的樣本不會使分類器在迭代過程中受益,因此該算法不會從未標記的樣本的學習中提升分類效果。造成這種問題的原因是決策樹分類器不能僅通過從葉節點中樣本類別的分布中得到預測數據的置信度排名。
發明內容
發明目的:本發明主要用于解決對使用無標簽的數據集訓練信度決策樹用以解決數據分類問題。
技術方案:本發明提供一種基于信度決策樹的自訓練學習方法,本發明的解決方案主要包括以下內容:
步驟一:輸入標記和未標記的數據;
步驟二:對數據進行預處理,使用證據理論框架來對未標記數據進行表述;
步驟三:使用標記樣本數據訓練信度決策樹模型,對未標記樣本進行標記預測;
步驟四:計算未標記樣本預測置信度,將置信度較高的未標記樣本與其預測標簽從未標記樣本集中刪除,并加入標記樣本訓練集中;
步驟五:若達到訓練停止條件則停止訓練,否則返回步驟三,所述訓練停止條件包括如下兩個條件,滿足其中一個條件即停止訓練;
條件一:未標記數據集之中數據對象數量為零;
條件二:決策樹達到預設的最大深度。
進一步的,所述步驟二中對于數據進行預處理,分為以下步驟:
步驟2.1:假定數據中的若干個中心點,計算出數據集中每個子集與構成子集類的數據重心;
步驟2.2:計算數據集中數據想對于數據中心的距離;
步驟2.3:通過fcm算法迭代計算,最小化以信度分區M和簇中心矩陣V為參數的目標函數來對結果進行優化;
步驟2.4:得到優化過的證據數據,使用其代替原始數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京航空航天大學,未經南京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010142693.3/2.html,轉載請聲明來源鉆瓜專利網。





