[發明專利]一種特征集確定的方法及裝置有效
| 申請號: | 201610082067.3 | 申請日: | 2016-02-05 |
| 公開(公告)號: | CN107045503B | 公開(公告)日: | 2019-03-05 |
| 發明(設計)人: | 涂丹丹;張家勁 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F16/2458 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 王仲凱 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 征集 確定 方法 裝置 | ||
1.一種特征集確定的方法,其特征在于,包括:
根據接收到的特征集確定請求,獲取用于特征學習的數據,所述特征集確定請求中包括所述特征學習的學習目標;
對所述數據進行類型分析,劃分出第一類型的數據和第二類型的數據,所述第一類型的數據為非數值類型的數據,所述第二類型的數據為數值類型的數據;
對所述第一類型的數據進行半監督學習,以提取出多個第一類型的特征,對所述第二類型的數據進行自適應學習,以提取出多個第二類型的特征;
對所述多個第一類型的特征和所述多個第二類型的特征進行評估,以得到最優特征集,所述最優特征集包括多個準確率滿足預置條件的特征,所述準確率為各個所述特征與所述學習目標的接近程度;
將所述最優特征集輸出,以響應所述特征集確定請求。
2.根據權利要求1所述的方法,其特征在于,所述第一類型的數據包括標注數據和非標注數據,所述對所述第一類型的數據進行半監督學習,以提取出多個第一類型的特征,包括:
利用稀疏自編碼算法對所述非標注數據進行無監督學習,得到稀疏自編碼算法的函數參數W和b,所述W為所述稀疏自編碼算法中的變量系數,所述b為所述稀疏自編碼算法中的常量;
利用前饋自編碼算法,對所述標注數據,以及所述W和所述b進行特征變換,以得到多個第一類型的特征。
3.根據權利要求1所述的方法,其特征在于,所述對所述第二類型的數據進行自適應學習,以提取出多個第二類型的特征,包括:
對所述第二類型的數據進行線性相關性判斷;
根據線性相關性判斷的結果,采用與所述結果對應的特征提取策略進行特征提取,以得到特征變換矩陣;
根據所述特征變換矩陣對所述第二類型的數據中的標注數據進行特征變換,以得到多個第二類型的特征。
4.根據權利要求3所述的方法,其特征在于,所述根據所述特征變換矩陣對所述第二類型的數據中的標注數據進行特征變換,以得到多個第二類型的特征,包括:
根據所述特征變換矩陣對所述第二類型的數據中的標注數據進行特征變換,得到自適應學習得到的特征;
當所述自適應學習得到的特征滿足所述準確率的要求時,則將所述自適應學習得到的特征作為所述第二類型的特征;
當所述自適應學習得到的特征不滿足所述準確率的要求時,對所述自適應學習得到的特征進行自動特征選擇,以確定所述第二類型的特征。
5.根據權利要求3或4所述的方法,其特征在于,所述根據線性相關性判斷的結果,采用與所述結果對應的特征提取策略進行特征提取,以得到特征變換矩陣,包括:
當所述結果為線性相關時,若所述標注數據集的數據量在所述第二類型的數據中所占的比例超過預置閾值,則采用線性判別分析LDA算法進行監督線性特征提取,以得到特征變換矩陣,若所述比例低于所述預置閾值,則采用主成分分析PCA算法進行非監督線性特征提取,得到特征變換矩陣;
當所述結果為非線性相關時,若所述比例超過所述預置閾值,則采用核線性判別分析KLDA算法進行監督線性特征提取,得到特征變換矩陣,若所述比例低于所述預置閾值,則采用MIGFE算法進行非監督非線性特征提取,得到特征變換矩陣。
6.根據權利要求4所述的方法,其特征在于,所述當所述自適應學習得到的特征不滿足所述準確率的要求時,對所述自適應學習得到的特征進行自動特征選擇,以確定第二類型的特征,包括:
去除所述自適應學習得到的特征中的常量,以得到多個初選特征;
根據所述多個初選特征的信息增益和所述多個初選特征之間的相似程度,對所述多個初選特征進行排序并篩選,以得到第二類型的特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610082067.3/1.html,轉載請聲明來源鉆瓜專利網。





