[發明專利]無監督的特征選擇方法、裝置在審
| 申請號: | 201610205887.7 | 申請日: | 2016-04-05 |
| 公開(公告)號: | CN107291760A | 公開(公告)日: | 2017-10-24 |
| 發明(設計)人: | 黃光遠;蘭金鶴;麥港林 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京弘權知識產權代理事務所(普通合伙)11363 | 代理人: | 逯長明,許偉群 |
| 地址: | 開曼群島資本*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 監督 特征 選擇 方法 裝置 | ||
技術領域
本申請涉及計算機數據處理技術領域,尤其涉及無監督的特征選擇方法、裝置。
背景技術
目前,基于大數據分析的應用不斷涌現,如信息檢索、挖掘用戶的消費傾向、消費模式等;通過對樣本數據進行分析,提取出能夠描述樣本數據的屬性信息,即樣本的特征。例如,從某商品的網絡銷售數據中,可以提取出購買用戶等級、購買次數、購金額等特征。一般的,樣本數據都具有多個特征,但未必每個特征都對數據的分析有用處,因此需要從大量特征中選出有效的特征,以減少特征集中特征的個數,進而減小具體應用中基于特征集的計算過程的復雜度,提高預測精度。
針對樣本數據的特征選擇問題,相關技術中已經給出多種實現方法,這些實現方法大多都是需要依賴樣本數據分類標示的有監督方式,即各條樣本數據的類別應當為已知,從而根據這些已知類別調整特征選擇模型的參數,以保證特征選擇的準確率。
但是有些應用場景下樣本數據不具備分類標示,從而難以通過現有特征選擇方法進行特征選擇。另外,應用現有特征選擇方法會出現所選出的兩個或兩個以上特征所代表的信息相似的現象,即最終得到的特征集存在信息冗余。
發明內容
為克服相關技術中存在的問題,本申請提供一種無監督的特征選擇方法、裝置。
本申請第一方面,提供一種無監督的特征選擇方法,包括:
計算樣本數據的所有特征之間的相似度;
以特征為節點,根據節點之間的相似度構建特征拓撲圖;
對所述特征拓撲圖進行分割,得到一個或多個連通圖;
根據所述連通圖,確定目標特征集。
結合第一方面,在第一方面第一種可行的實施方式中,根據節點之間的相似度構建特征拓撲圖,包括:
在任意相似度大于零的兩個節點之間添加一條邊,得到所述特征拓撲圖。
結合第一方面,或者第一方面第一種可行的實施方式,在第一方面第二種可行的實 施方式中,對所述特征拓撲圖進行分割,得到一個或多個連通圖,包括:
分別將所述特征拓撲圖中每條邊對應的相似度與預設相似度閾值進行比較;
刪除所述特征拓撲圖中相似度小于所述預設相似度閾值的邊;
將通過邊連接的節點劃分在同一個連通圖中,得到一個或多個連通圖。
結合第一方面,或者第一方面第一種可行的實施方式,在第一方面第三種可行的實施方式中,對所述特征拓撲圖進行分割,得到一個或多個連通圖,包括:
為所述特征拓撲圖中的每個節點設置唯一的標簽;
將每個節點的標簽傳播至相應的鄰居節點;
對于每個節點,將自己的標簽和接收到的所有來自鄰居的標簽進行比較,選其中值最小的標簽作為相應節點的新標簽;
判斷各個節點的標簽是否發生變化;
如果存在至少一個節點的標簽發生變化,則返回執行所述將每個節點的標簽傳播至相應的鄰居節點的步驟;
如果所有節點的標簽均未發生變化,則將標簽相同的節點劃分在同一個連通圖中,得到一個或多個連通圖。
結合第一方面,或者第一方面第一種可行的實施方式,在第一方面第四種可行的實施方式中,根據所述連通圖,確定目標特征集,包括:
分別確定每個連通圖中的核心節點,并將各個核心節點對應的特征記入目標特征集。
結合第一方面第四種可行的實施方式,在第一方面第五種可行的實施方式中,分別確定每個連通圖中的核心節點,包括:
根據各個節點的節點度值、介數值和Kcore系數中的任意一種確定每個連通圖中的核心節點。
本申請第二方面,提供一種無監督的特征選擇裝置,包括:
相似度計算單元,用于計算樣本數據的所有特征之間的相似度;
拓撲圖構建單元,用于以特征為節點,根據節點之間的相似度構建特征拓撲圖;
連通圖挖掘單元,用于對所述特征拓撲圖進行分割,得到一個或多個連通圖;
目標特征選擇單元,用于根據所述連通圖,確定目標特征集。
結合第二方面,在第二方面第一種可行的實施方式中,所述拓撲圖構建單元具體被配置為:
在任意相似度大于零的兩個節點之間添加一條邊,得到所述特征拓撲圖。
結合第二方面,或者第二方面第一種可行的實施方式,在第二方面第二種可行的實施方式中,所述連通圖挖掘單元包括:第一挖掘模塊;
所述第一挖掘模塊被配置為:
分別將所述特征拓撲圖中每條邊對應的相似度與預設相似度閾值進行比較;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610205887.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:瀏覽器頁面資源的處理方法和裝置
- 下一篇:一種正則表達式的匹配方法和裝置





