[發明專利]一種機器學習中避免大數據冗余的方法在審

申請號：	201611130182.X	申請日：	2016-12-09
公開（公告）號：	CN106650948A	公開（公告）日：	2017-05-10
發明（設計）人：	劉立;許建衛;竇曉光	申請（專利權）人：	曙光信息產業（北京）有限公司
主分類號：	G06N99/00	分類號：	G06N99/00
代理公司：	北京德恒律治知識產權代理有限公司11409	代理人：	章社杲,盧軍峰
地址：	100193 北京***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種機器學習避免數據冗余方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及機器學習領域，具體涉及一種機器學習中避免大數據冗余的方法。

背景技術

機器學習是一門讓計算機在非精確編程下進行活動的科學，在過去十年，機器學習促成了無人駕駛車、高效語音識別、精確網絡搜索及人類基因組織認知的大力發展。機器學習最基本的做法是采用算法來解析數據、從中學習，然后對真實世界中的事件作出決策和預測，與傳統的為解決特定任務、硬編碼的軟件程序不同，機器學習是用大量的數據來“訓練”，通過各種算法從數據中學習如何完成任務。傳統算法包括決策樹學習、推導邏輯規劃、聚類、強化學習和貝葉斯網絡等等，眾所周知，我們還沒有實現強人工智能，早期機器學習方法甚至都無法實現弱人工智能。

機器學習最常見的一個應用場合就是大數據分析，現實世界中，越來越多的應用涉及到海量的數據，這些大數據的屬性包括數量、速度和多樣性等，都是呈現了大數據不斷增長的復雜性，所以，大數據的分析方法在大數據領域就顯得尤為重要，可以說是決定最終信息是否有價值的決定性因素。機器學習是自動化流程已經大數據規模化分析的重中之重，機器學習對大數據應用的貢獻主要體現在兩個方面：一是促進數據科學家門的多產性；二是發現一些被忽視的方案，有些方案甚至遭到了最好的數據科學家們的忽視，這些價值來自于機器學習的核心功能：即讓分析算法無需人類干預和顯式程序即可對最新數據進行學習。

利用機器學習對大數據進行分析確實是一種非常有效的方式，但是同時又出現了另一個問題，即機器學習，典型的如支持向量機和深度學習等算法往往包含著極為復雜和繁瑣的計算迭代過程，計算量十分巨大，因此，如果處理的數據本身非常巨大，則對硬件的計算能力要求非常高。在一些大量圖片的分類任務中，即便同時使用大量眾核設備進行加速，也要等待數天甚至數月的時間。針對這種情況，在滿足精度的要求下，適當地縮減數據規模，不僅是有效的，而且是十分必要的，以提高數據處理的邊際效益。

有鑒于此，急需提供一種在滿足精度的要求下，適當縮減機器學習中數據規模的方法。

發明內容

本發明所要解決的技術問題是提供一種在滿足精度的要求下，適當縮減機器學習中數據規模的方法。

為了解決上述技術問題，本發明所采用的技術方案是提供一種機器學習中避免大數據冗余的方法，包括以下步驟：

S1、將訓練數據按照預設規則均勻劃分為規模相當的若干份；

S2、對每一份數據按照預設的訓練步驟進行訓練計算，并繪制出跟隨訓練步驟的屬性值曲線；

S3、根據每份屬性值曲線的相似度，保留相應的屬性值曲線對應的數據和初步訓練結果；

S4、根據屬性值曲線的相似度對保留的數據和初步訓練結果進行排序，將相鄰的相似度達到閾值的屬性值曲線對應的數據和初步訓練結果分別進行加權，返回步驟S2，直至所有訓練數據合并為一個數據，并得到最終的訓練結果。

在上述技術方案中，當所述訓練數據采用空間數據時，所述預設規則為：按照空間坐標信息將所述空間數據均勻劃分為規模相當的若干份。

在上述技術方案中，所述屬性值曲線為精度曲線或誤差曲線。

在上述技術方案中，步驟S3具體為：

比較每份屬性值曲線的相似度，判斷相似度是否達到閾值；

若相似度達到閾值，則隨機保留其中一份屬性值曲線對應的數據和初步訓練結果；若相似度未達到閾值，則保留所有屬性值曲線對應的數據和初步訓練結果。

在上述技術方案中，所述相似度的閾值上限為95％，所述相似度的閾值下限為99％。

本發明根據每份屬性值曲線的相似度，保留相應的屬性值曲線對應的數據和初步訓練結果，并根據屬性值曲線的相似度對保留的數據和初步訓練結果進行排序，將相鄰的相似度達到閾值的屬性值曲線對應的數據和初步訓練結果分別進行加權，直至所有訓練數據合并為一個數據，并得到最終的訓練結果，操作簡單，易于實現，并行度較高，極大的減小了計算量，提高了計算效率。

附圖說明

為了更清楚地說明本發明實施例或現有技術中的技術方案，下面將對實施例中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發明的一些實施例，對于本領域普通技術人員來講，在不付出創造性勞動的前提下，還可以根據這些附圖獲得其他的附圖。

圖1為本發明中一種機器學習中避免大數據冗余的方法流程圖；

圖2為本發明中訓練數據采用空間數據時的計算示意圖。

具體實施方式

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于曙光信息產業（北京）有限公司，未經曙光信息產業（北京）有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201611130182.X/2.html，轉載請聲明來源鉆瓜專利網。