[發明專利]一種基于信度決策樹的自訓練學習方法在審
| 申請號: | 202010142693.3 | 申請日: | 2020-03-04 |
| 公開(公告)號: | CN111368913A | 公開(公告)日: | 2020-07-03 |
| 發明(設計)人: | 鄒俊韜;燕雪峰;周勇 | 申請(專利權)人: | 南京航空航天大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 葛瀟敏 |
| 地址: | 210016 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 信度 決策樹 訓練 學習方法 | ||
1.一種基于信度決策樹的自訓練學習方法,其特征在于,該方法包含以下步驟:
步驟一:輸入標記和未標記的數據;
步驟二:對數據進行預處理,使用證據理論框架來對未標記數據進行表述;
步驟三:使用標記樣本數據訓練信度決策樹模型,對未標記樣本進行標記預測;
步驟四:計算未標記樣本預測置信度,將置信度較高的未標記樣本與其預測標簽從未標記樣本集中刪除,并加入標記樣本訓練集中;
步驟五:若達到訓練停止條件則停止訓練,否則返回步驟三,所述訓練停止條件包括如下兩個條件,滿足其中一個條件即停止訓練;
條件一:未標記數據集之中數據對象數量為零;
條件二:決策樹達到預設的最大深度。
2.根據權利要求1所述的一種基于信度決策樹的自訓練學習方法,其特征在于,所述步驟二中對于數據進行預處理,分為以下步驟:
步驟2.1:假定數據中的若干個中心點,計算出數據集中每個子集與構成子集類的數據重心;
步驟2.2:計算數據集中數據想對于數據中心的距離;
步驟2.3:通過fcm算法迭代計算,最小化以信度分區M和簇中心矩陣V為參數的目標函數來對結果進行優化;
步驟2.4:得到優化過的證據數據,使用其代替原始數據。
3.根據權利要求2所述一種基于信度決策樹的自訓練學習方法法,其特征在于,所述步驟三中使用標記樣本數據訓練信度決策樹模型,主要包括以下步驟:
步驟3.1:使用步驟2.4的證據數據作為訓練集對決策樹模型進行訓練;
步驟3.2:對于節點之中的數據,對數據的證據進行折扣;
步驟3.3:在決策樹每個節點的分裂屬性篩選過程中,采用證據理論框架對數據進行判別,得到節點的最佳分裂屬性;
步驟3.4:判斷決策樹模型訓練迭代是否完成,若是則輸出模型,否則繼續進行步驟3.2。
4.根據權利要求3所述的一種基于信度決策樹的自訓練學習方法,其特征在于,所述步驟3.3主要包括以下步驟:
步驟A:對數據集中的證據數據,計算其對于每個屬性的pignistic概率;
步驟B:對于決策樹中新生成的節點計算其包含數據子集中數據的對應權重,從而計算數據子集的pignistic概率和與pignistic概率熵;
步驟C:計算數據分別使用數據每個屬性對節點進行分裂后對應的增益率,選擇增益率最高的屬性作為當前節點的最佳分裂屬性。
5.根據權利要求1所述的一種基于信度決策樹的自訓練學習方法,其特征在于,所述步驟四主要包括以下步驟:
步驟4.1:使用未標記數據樣本與標記數據樣本標簽之間證據的Jousselme距離平均值來對預測標記樣本置信度進行計算;
步驟4.2:設置閾值對未標記樣本進行篩選,將置信度大于閾值的預測的未標記樣本加入標記樣本的訓練集中,并從未標記樣本集中刪除。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京航空航天大學,未經南京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010142693.3/1.html,轉載請聲明來源鉆瓜專利網。





