[發明專利]一種基于離散度平衡的度量學習方法在審
| 申請號: | 201710006218.1 | 申請日: | 2017-01-05 |
| 公開(公告)號: | CN108280457A | 公開(公告)日: | 2018-07-13 |
| 發明(設計)人: | 錢冬云;金慧峰;葉聰相;陳賢敏 | 申請(專利權)人: | 浙江工貿職業技術學院 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京神州華茂知識產權有限公司 11358 | 代理人: | 吳照幸 |
| 地址: | 325000 浙江省溫州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 離散度 度量 矩陣 距離度量 數據集中 樣本數據 優化模型 最大邊界 歸一化 最大化 構建 平衡 標簽屬性 標簽信息 實驗驗證 學習算法 樣本類別 樣本特征 約束條件 分類 求解 映射 迭代 學習 樣本 采集 重心 | ||
本發明公開了一種基于離散度平衡的度量學習方法,包括:(1)利用采集到的不平衡樣本數據,根據樣本數據與標簽信息,求出不同類重心間的距離,定義歸一化離散度;(2)將歸一化離散度與幾何均值結合,最大化幾何均值,并使用log函數平衡各類間離散度;(3)根據樣本類別標簽屬性,利用最大邊界理論,構建最大化問題;(4)構建度量學習算法模型,增加約束條件,得到度量學習優化模型;(5)利用梯度下降與迭代映射方法求解優化模型,獲得距離度量矩陣;(6)提取不平衡數據集中待分類的樣本特征,并使用距離度量矩陣進行分類實驗驗證。本發明利用幾何均值和最大邊界理論,較好的度量了不平衡數據集中樣本間的距離。
技術領域
本發明涉及數據挖掘與人工智能技術,具體是一種基于離散度平衡的度量學習方法,可恰當的度量不平衡數據間樣本的相似度。
背景技術
隨著信息時代的發展,度量學習算法已極為廣泛的應用至生產生活的各個方面。度量學習能根據已有樣本的屬性,針對性的學習距離度量方法,從而恰當的度量不同樣本間的距離,以衡量樣本間的相似性。恰當的距離度量方法能充分提高樣本分類、聚類等應用的精度。近些年,研究人員從不同的角度提出了不同的解決思路,并獲得了許多良好的距離度量方法。
Xing.P針對樣本間的度量學習,提出了一種凸優化模型,根據樣本間的成對約束,使得同類間樣本距離較小的同時,最大化不同類間樣本的距離,在保證所獲得距離度量矩陣為半正定矩陣的情況下,獲得最優的距離度量。LMNN(大間隔最近鄰居分類算法)是一種局部優化方法,其旨在使樣本的k個近鄰盡可能為同一類的樣本,且盡可能的分離不同類的樣本,并通過迭代求得最優解。ITML(基于信息論的距離度量學習)將信息論相關理論引入度量學習,并獲得一個Bregman優化問題。ITML旨在最小化兩個高斯分布間的KL散度,并在約束條件的作用下獲得距離度量。研究人員針對樣本的分布屬性、標簽信息等,提出了許多恰當的度量學習方法。然而,很多算法并不能很好的處理不平衡數據集。由于不平衡數據集中,不同類樣本的數量差異較大,使得傳統度量學習方法更傾向于樣本數量大的類而忽略樣本數量較小的類,造成距離度量不能準確的反應不同類間樣本的相似性,而影響分類、聚類等應用的精度。
發明內容
本發明的目的在于提供一種基于離散度平衡的度量學習方法,能很好的處理不平衡數據集,平衡的分離來自不同類的樣本數據的同時,使來自不同類樣本距離之和盡可能大。
為實現上述目的,本發明提供如下技術方案:
一種基于離散度平衡的度量學習方法,包括以下步驟:
(1)利用采集到的不平衡樣本數據,根據樣本數據與標簽信息,求出不同類重心間的距離,進一步定義歸一化離散度;
(2)將歸一化離散度與幾何均值結合,最大化幾何均值的過程中使得不同類間散度盡可能的一致,并使用log函數進一步平衡各類間離散度,以避免不同類在度量空間中過于緊湊的現象;
(3)根據樣本類別標簽屬性,利用最大邊界理論,構建最大化問題,增強了本發明度量學習方法的判別能力;
(4)構建本發明提出的度量學習算法模型,增加約束條件,使得所求距離度量有效可行,得到度量學習優化模型;
(5)根據本發明的度量學習優化模型,利用梯度下降與迭代映射方法求解優化模型,求得本發明所提出的度量學習的距離度量矩陣;
(6)提取不平衡數據集中待分類的樣本特征,并使用步驟(5)獲得的距離度量矩陣進行分類實驗,對待分類樣本進行分類實驗,驗證度量學習的性能。
作為本發明進一步的方案:所述的步驟(1),具體包括以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工貿職業技術學院,未經浙江工貿職業技術學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710006218.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用于鍋爐內壁相貫線焊縫的識別方法
- 下一篇:群體關系類型識別方法及裝置





