[發明專利]一種具有可解釋性的直推學習方法及系統有效
| 申請號: | 201910994868.0 | 申請日: | 2019-10-18 |
| 公開(公告)號: | CN110728327B | 公開(公告)日: | 2021-11-23 |
| 發明(設計)人: | 呂文君;康宇;李澤瑞;昌吉 | 申請(專利權)人: | 中國科學技術大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 合肥天明專利事務所(普通合伙) 34115 | 代理人: | 金凱 |
| 地址: | 230026 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 具有 解釋性 學習方法 系統 | ||
本發明公開了一種具有可解釋性的直推學習方法及系統,屬于數據處理技術領域,包括:獲取數據的樣本集合,將樣本集合劃分為有標注樣本集合和無標注樣本集合;基于數據同質性假設對樣本集合進行處理,構造集成親和矩陣和親和矩陣集成系數;利用集成親和矩陣對無標注集合中的圖像進行偽標注,得到偽標注樣本集合;利用有標注樣本集合和偽標注樣本集合,對決策樹模型進行訓練;對親和矩陣集成系數進行更新,直至親和矩陣逼近最優,輸出決策樹模型;利用決策樹模型對實時采集的圖像進行標記分類。本發明構建的直推學習分類模型具有可解釋性,適用于對風險極其敏感的場景。
技術領域
本發明涉及數據處理技術領域,特別涉及一種具有可解釋性的直推學習方法及系統。
背景技術
在傳統的監督學習中,學習器通過對大量有標記的訓練示例進行學習,從而建立模型用于預測未見示例的標記。隨著數據采集和存儲技術的飛速發展,獲取大量未標記示例已相當容易,而獲取大量有標記示例則相對困難,因而半監督學習應運而生。
針對半監督學習中的直推學習問題,在很多工業場合,對風險極其敏感,機器學習的可解釋性就顯得非常重要。目前,機器學習方法普遍是基于黑盒模型的設計和基于拉普拉斯支持向量機的設計,但基于黑盒模型的設計,可解釋性較弱,基于拉普拉斯支持向量機的設計,難以對其進行解釋。
發明內容
本發明的目的在于克服上述背景技術中的不足,使得直推學習分類模型具備可解釋性,提高數據標簽分類準確性。
為實現以上目的,一方面,采用一種具有可解釋性的直推學習方法,包括如下步驟:
獲取數據的樣本集合,將樣本集合劃分為有標注樣本集合和無標注樣本集合;
基于數據同質性假設對樣本集合進行處理,構造集成親和矩陣和親和矩陣集成系數;
利用集成親和矩陣對無標注集合中的數據進行偽標注,得到偽標注樣本集合;
利用有標注樣本集合和偽標注樣本集合,對決策樹模型f進行訓練;
對親和矩陣集成系數進行更新,直至親和矩陣逼近最優,輸出決策樹模型;
利用決策樹模型對實時采集的數據進行標記分類。
進一步地,所述獲取數據的樣本集合,包括:
采集數據;
對數據進行特征提取,得到特征向量,將特征向量作為樣本構建所述樣本集合。
進一步地,所述基于數據同質性假設對樣本集合進行處理,構造集成親和矩陣和親和矩陣集成系數,包括:
基于數據同質性假設對樣本集合進行處理,構造候選親和矩陣集合m為候選親和矩陣的數量;
對候選親和矩陣集合中的候選親和矩陣進行線性加權,得到所述集成親和矩陣A;
構造所述親和矩陣集成系數{μk,k=1,2,...,m},且
進一步地,所述候選親和矩陣Ak中的第(i,j)個元素ωi,j的計算公式為:
其中,i,j=1,2,...,n,t0為高斯核寬度,為距離xj最近的k個樣本的集合,為距離xi最近的k個樣本的集合。
進一步地,所述集成親和矩陣A為:
進一步地,所述對親和矩陣集成系數進行更新,直至親和矩陣逼近最優,輸出決策樹模型,包括:
a1)、令p=1,p,q=1,2,...,m;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學技術大學,未經中國科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910994868.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種帶旋轉的邊緣模板匹配方法
- 下一篇:分類模型的訓練方法和裝置





