[發明專利]特征選擇方法和裝置、多媒體和網絡數據降維方法和設備在審
| 申請號: | 202010123816.9 | 申請日: | 2020-02-27 |
| 公開(公告)號: | CN111783816A | 公開(公告)日: | 2020-10-16 |
| 發明(設計)人: | 祖辰 | 申請(專利權)人: | 北京沃東天駿信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N20/00 |
| 代理公司: | 中國貿促會專利商標事務所有限公司 11038 | 代理人: | 王云飛;劉劍波 |
| 地址: | 100176 北京市大興區北京經濟*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 特征 選擇 方法 裝置 多媒體 網絡 數據 設備 | ||
本公開涉及一種特征選擇方法和裝置、多媒體和網絡數據降維方法和設備。該特征選擇方法包括:獲取原始數據矩陣和待選擇特征數目k,其中,所述原始數據矩陣為電子數據的原始數據矩陣;根據原始數據矩陣、回歸系數矩陣、標簽矩陣、尺度因子矩陣和偏置向量確定目標值函數;確定目標值最小的情況下的尺度因子向量;從尺度因子向量中選擇k個尺度因子,將k個尺度因子對應的特征作為目標特征。本公開通過引入尺度因子對最小二乘回歸的系數矩陣進行縮放,可以利用尺度因子對特征重要性進行評估。
技術領域
本公開涉及特征選擇領域,特別涉及一種特征選擇方法和裝置、多媒體和網絡數據降維方法和設備。
背景技術
隨著現代社會數字技術的迅速發展,數據的形態變得越來越復雜同時數據的維度也越來越高,因此人們迫切需要高效穩定的FS(Feature Selection,特征選擇)方法從海量的數據中剔除冗余無效的干擾特征而將真正有價值的特征保留下來。特征選擇算法旨在根據特定任務中定義的相關度、偏好或者重要性對相關數據特的子集進行排序和選擇。由于特征選擇可以減少用于訓練機器學習模型的特征數量,因此其可以緩解維度災難,加速學習過程,提高模型性能并且可以增強對數據的理解。研究人員已經在各種應用條件和多個實際場景中對特征選擇算法進行研究,目前特征選擇已經成為機器學習和數據挖掘的重要組成部分。
發明內容
發明人通過研究發現:特征選擇方法可以分為3類:包裹式(Wrapper)、過濾式(Filter)和嵌入式(Embedding)。圖1為三類特征選擇方法的示意圖。包裹式特征選擇(如圖1(a))方法使用相關任務目標(分類和回歸等)作為衡量標準對特征子集進行評價。過濾式特征選擇(如圖1(b))方法一般使用數據本身所具有的一些特性如互信息、信息增益和相關性對每個特征進行評分。嵌入式特征選擇(如圖1(c))方法將特征選擇和機器學習過程進行融合,在目標函數優化過程中利用得到不同特征的權重系數進行評分。
在實際應用中由于包裹式特征選擇算法通過最終的機器學習任務對特征進行評估,以選擇最適合的特征子集,因此包裹式特征選擇在性能優于過濾式特征選擇,但是需要對模型進行反復迭代訓練,所以計算開銷較大。過濾式特征選擇算法直接使用數據本身具有的統計信息對特征進行評估,與最終的目標任務無關。與包裹式和過濾式特征選擇算法不同,嵌入式特征選擇算法與最終的機器學習任務緊密耦合。其利用l1或者l2,1等懲罰項對需要學習的投影矩陣W進行約束得到特征的相應評分,但是使用這種懲罰項得到的特征重要性缺乏可解釋性,并且無法找到同時具有全局性和稀疏性的投影矩陣最優解。
鑒于以上技術問題中的至少一項,本公開提供了一種特征選擇方法和裝置、多媒體和網絡數據降維方法和設備,可以利用尺度因子對特征重要性進行評估。
根據本公開的一個方面,提供一種特征選擇方法,包括:
獲取原始數據矩陣和待選擇特征數目k,其中,所述原始數據矩陣為電子數據的原始數據矩陣;
根據原始數據矩陣、回歸系數矩陣、標簽矩陣、尺度因子矩陣和偏置向量確定目標值函數;
確定目標值最小的情況下的尺度因子向量;
從尺度因子向量中選擇k個尺度因子,將k個尺度因子對應的特征作為目標特征。
在本公開的一些實施例中,所述根據原始數據矩陣、回歸系數矩陣、標簽矩陣、尺度因子矩陣和偏置向量確定目標值函數包括:
確定目標值函數的第一項,采用尺度因子矩陣對回歸系數矩陣進行縮放,其中,目標值函數的第一項為擴展后的最小二乘回歸項,用于采用回歸系數矩陣,將原始數據矩陣向標簽矩陣進行映射;
將回歸系數矩陣的lF范數的正則化項,作為目標值函數的第二項;
將目標值函數的第一項和第二項的和作為目標值函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京沃東天駿信息技術有限公司;北京京東世紀貿易有限公司,未經北京沃東天駿信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010123816.9/2.html,轉載請聲明來源鉆瓜專利網。





