[發明專利]一種特征集確定的方法及裝置有效
| 申請號: | 201610082067.3 | 申請日: | 2016-02-05 |
| 公開(公告)號: | CN107045503B | 公開(公告)日: | 2019-03-05 |
| 發明(設計)人: | 涂丹丹;張家勁 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F16/2458 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 王仲凱 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 征集 確定 方法 裝置 | ||
本發明公開了一種特征集確定的方法,包括:根據接收到的特征集確定請求,獲取用于特征學習的數據,特征集確定請求中包括特征學習的學習目標,對該數據進行類型分析,劃分出第一類型的數據和第二類型的數據,對第一類型的數據進行半監督學習,提取出多個第一類型的特征,對第二類型的數據進行自適應學習,提取出多個第二類型的特征;對第一類型的特征和第二類型的特征進行評估,以得到最優特征集,最優特征集包括多個準確率滿足預置條件的特征,準確率為特征與學習目標的接近程度。本發明實施例提供的特征集確定的方法,不僅提高了特征學習的效率,還可以提升特征集的準確度。
技術領域
本發明涉及計算機技術領域,具體涉及一種特征集確定的方法及裝置。
背景技術
在計算機視覺、模式識別、數據挖掘很多應用問題中,經常會遇到高維度的數據,高維度的數據通常指的是包含很多種類的數據,例如:各種商品的數據,每種商品都可以看作是一個維度。高維度的數據會造成很多問題,例如導致算法運行性能以及準確性的降低。特征學習的目標是從原始數據中找到有用的特征集,再運用一些有效的算法,實現數據的聚類、分類以及檢索等任務。
整個數據挖掘過程中,一半以上的時間用在特征學習階段。特征學習的目的是通過無監督學習、特征提取和特征選擇等技術消除不相關和冗余的特征來降低系統的復雜性。當機器學習算法由于不相關的特征所導致的偽結構而變得混亂時,會導致嚴重的過擬合問題。在機器學習領域中,為了減少計算成本和存儲成本以及提高預測的準確性,特征學習技術變得越來越重要。
發明內容
為了解決現有技術中特征學習花費的時間多的問題,本發明實施例提供一種特征集確定的方法,針對不同類型的數據采用不同的處理方法,不僅提高了特征學習的效率,還可以獲得由準確度更高的特征組成的最優特征集,從而提高了所確定的特征集的準確度。本發明實施例還提供了相應的裝置。
為達到上述目的,本發明的實施例采用如下技術方案:
本發明第一方面提供一種特征集確定的方法,常應用于分布式運算平臺,分布式運算平臺可以包括多個計算節點,每個計算節點都可以根據控制節點的指示或者預先配置的任務觸發特征集確定的過程。特征集確定的方法可以包括:根據接收到的特征集確定請求,獲取用于特征學習的數據,該特征集確定請求中包括該特征學習的學習目標;對獲取到的數據進行類型分析,劃分出第一類型的數據和第二類型的數據,第一類型的數據為非數值類型的數據,第二類型的數據為數值類型的數據;對第一類型的數據進行半監督學習,以提取出多個第一類型的特征,對第二類型的數據進行自適應學習,以提取出多個第二類型的特征;對多個第一類型的特征和多個第二類型的特征進行評估,以得到最優特征集,最優特征集包括多個準確率滿足預置條件的特征,準確率為各個特征與學習目標的接近程度;將該最優特征集輸出,以響應特征集確定請求。其中,特征學習就是通過例如:最近鄰中心的距離的方法來尋找各個類的中心,實現數據的聚類,然后對聚類后的各個類中的數據進行分析,抽取出其中的特征。例如:如果對人臉進行特征學習,因為同類的數據具有趨向性,臉部用于描繪同一面部器官的數據也會聚到一個類中,然后對各類中的數據進行分析,抽取出其中的各個面部器官的特征數據,從而確定所學習數據對應的是人臉。從上述第一方面的描述可以看出,針對不同類型的數據采用不同的處理方法,不僅提高了特征學習的效率,還可以提升特征集的準確度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610082067.3/2.html,轉載請聲明來源鉆瓜專利網。





