[發明專利]基于峰值密度聚類的主動學習方法在審
| 申請號: | 201710207476.6 | 申請日: | 2017-03-31 |
| 公開(公告)號: | CN106991444A | 公開(公告)日: | 2017-07-28 |
| 發明(設計)人: | 汪敏;閔帆;肖斌;李志偉;李瀟;張櫻弋 | 申請(專利權)人: | 西南石油大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 成都方圓聿聯專利代理事務所(普通合伙)51241 | 代理人: | 曹少華 |
| 地址: | 610500 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 峰值 密度 主動 學習方法 | ||
技術領域
本發明涉及主動學習領域,尤其是基于峰值密度聚類的主動學習方法。
背景技術
主動學習在某些情況下,沒有類標簽的數據相當豐富而有類標簽的數據相當稀少,并且人工對數據進行標記的成本又相當高昂。在這種情況下,我們可以讓學習算法主動地提出要對哪些數據進行標注,之后我們要將這些數據送到專家那里讓他們進行標注,再將這些數據加入到訓練樣本集中對算法進行訓練,這一過程叫做主動學習。
主動學習這個過程最重要的是兩點:一、由學習算法主動提出對未標記的樣本的標記需求;二、選擇策略。
聚類算法:類,就是指相似元素的集合。聚類是把一些對象按照具體特征組織到若干個類別里。
如圖1展示了一個一般的主動學習實現的框架,主要可以分為以下兩個部分:
第一部分是初始化階段,通常是隨機從樣本中選擇一部分實例構成初始訓練集。然后送入分類器,對樣本進行分類。
第二部分是循環查詢階段,選擇器根據一定的查詢策略從未標記的樣本中選擇最有信息的樣本進行標記;被選擇的實例會加入訓練集中,重新訓練分類器,過程一直迭代,直到終止條件滿足。
現有技術主要缺點是初始階段,需要從大量樣本中隨機進行選擇,構建初始訓練集,如果隨機選擇的初始樣本不好,很有可能導致后續算法無法達到預定的效果。需要構建一個復雜的分類器,有些方法是每次選擇一個樣本,重新加入分類器,對樣本進行分類,這樣可能極大的降低算法的效率。
因此,對于上述問題有必要提出基于峰值密度聚類的主動學習方法。
發明內容
針對上述現有技術中存在的不足,本發明的目的在于提供一種大大減少人工標記實例的個數,大大減少成本,提高經濟效益的基于峰值密度聚類的主動學習方法。
首先提出基于固定標記個數的主動學習問題:
輸入:決策系統S=(U,C,d),用戶指定的標記個數。
輸出:該決策系統中所有實例的標簽。
優化目標:預測準確度最高。
基于峰值密度聚類的主動學習方法,其方法步驟為:(1)開始時,將所有未能標記數據進行聚類;(2)根據聚類的信息,構建一個選擇器,從大量未標記樣本中,選擇最有價值的樣本進行標記;(3)根據已經標記的樣本和已有的聚類結構,對未能標記的樣本進行預測和分類;(4)判斷是否未分類實例,若是,則重新進行聚類,若否,則結束。
優選地,所述聚類可以采用kmeans或density peak主流聚類方法進行。
優選地,所述聚類首先進行定義本地密度α,其中:
αi=∑jχ(dij-dc)
然后計算最小距離β,β是點i與如何密度比它大的點之間的最小距離,其中:
最后構建聚類關系樹結構ms=[m(x1),L,m(xn)],該樹僅構建一次,存儲,用于后續的聚類分析。
優選地,所述聚類首先設置選擇參數γ,其中:
γ=α×β
然后排序,根據聚類后形成的簇,分簇對γ進行排序,形成排序表。
優選地,所述分類實施分為兩種情況分類,其中一種情況實施步驟為:(1)標記的實例的數量未達到指定的最大數量;(2)根據聚類后形成的簇,分簇對γ進行排序的選擇器選擇最有價值的實例;(3)預測實例,并繼續重新聚類未標記的實例;(4)將檢查每個聚類中的標記數據,如果聚類中的所有標簽都是相同的,確定該簇是純的;(5)對于一個純粹的聚類,直接預測所有未標記數據與任何其他數據相同,如果聚類是不純凈的,將執行重新聚類,迭代地,直到標記的數據達到設定的最大值。
優選地,所述分類實施的另一種情況實施方法:如果標記的數據的數量已達到最大極限,但仍然有不純凈的簇和未標記的數據,將使用投票策略來確定未標記實例的標簽。
由于采用上述技術方案,本發明將ALEC方法與最主流的分類算法KNN,C4.5決策樹算法,普通貝葉斯方法NaiveBayes方法在以下12數據集上進行了仔細的比較,可以以很少的標記數量獲得很高的準確度,可以大大減少人工標記實例的個數,從而大大減少成本,提高經濟效益,同時具有很強的實用性。
附圖說明
圖1是現有主動學習方法示意圖;
圖2是本發明的方法示意圖;
圖3是本發明的具有20個實例的聚類樹結構構建示意圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西南石油大學,未經西南石油大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710207476.6/2.html,轉載請聲明來源鉆瓜專利網。





