日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種機器學習中避免大數據冗余的方法在審

專利信息
申請號: 201611130182.X 申請日: 2016-12-09
公開(公告)號: CN106650948A 公開(公告)日: 2017-05-10
發明(設計)人: 劉立;許建衛;竇曉光 申請(專利權)人: 曙光信息產業(北京)有限公司
主分類號: G06N99/00 分類號: G06N99/00
代理公司: 北京德恒律治知識產權代理有限公司11409 代理人: 章社杲,盧軍峰
地址: 100193 北京*** 國省代碼: 北京;11
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 機器 學習 避免 數據 冗余 方法
【說明書】:

技術領域

發明涉及機器學習領域,具體涉及一種機器學習中避免大數據冗余的方法。

背景技術

機器學習是一門讓計算機在非精確編程下進行活動的科學,在過去十年,機器學習促成了無人駕駛車、高效語音識別、精確網絡搜索及人類基因組織認知的大力發展。機器學習最基本的做法是采用算法來解析數據、從中學習,然后對真實世界中的事件作出決策和預測,與傳統的為解決特定任務、硬編碼的軟件程序不同,機器學習是用大量的數據來“訓練”,通過各種算法從數據中學習如何完成任務。傳統算法包括決策樹學習、推導邏輯規劃、聚類、強化學習和貝葉斯網絡等等,眾所周知,我們還沒有實現強人工智能,早期機器學習方法甚至都無法實現弱人工智能。

機器學習最常見的一個應用場合就是大數據分析,現實世界中,越來越多的應用涉及到海量的數據,這些大數據的屬性包括數量、速度和多樣性等,都是呈現了大數據不斷增長的復雜性,所以,大數據的分析方法在大數據領域就顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素。機器學習是自動化流程已經大數據規模化分析的重中之重,機器學習對大數據應用的貢獻主要體現在兩個方面:一是促進數據科學家門的多產性;二是發現一些被忽視的方案,有些方案甚至遭到了最好的數據科學家們的忽視,這些價值來自于機器學習的核心功能:即讓分析算法無需人類干預和顯式程序即可對最新數據進行學習。

利用機器學習對大數據進行分析確實是一種非常有效的方式,但是同時又出現了另一個問題,即機器學習,典型的如支持向量機和深度學習等算法往往包含著極為復雜和繁瑣的計算迭代過程,計算量十分巨大,因此,如果處理的數據本身非常巨大,則對硬件的計算能力要求非常高。在一些大量圖片的分類任務中,即便同時使用大量眾核設備進行加速,也要等待數天甚至數月的時間。針對這種情況,在滿足精度的要求下,適當地縮減數據規模,不僅是有效的,而且是十分必要的,以提高數據處理的邊際效益。

有鑒于此,急需提供一種在滿足精度的要求下,適當縮減機器學習中數據規模的方法。

發明內容

本發明所要解決的技術問題是提供一種在滿足精度的要求下,適當縮減機器學習中數據規模的方法。

為了解決上述技術問題,本發明所采用的技術方案是提供一種機器學習中避免大數據冗余的方法,包括以下步驟:

S1、將訓練數據按照預設規則均勻劃分為規模相當的若干份;

S2、對每一份數據按照預設的訓練步驟進行訓練計算,并繪制出跟隨訓練步驟的屬性值曲線;

S3、根據每份屬性值曲線的相似度,保留相應的屬性值曲線對應的數據和初步訓練結果;

S4、根據屬性值曲線的相似度對保留的數據和初步訓練結果進行排序,將相鄰的相似度達到閾值的屬性值曲線對應的數據和初步訓練結果分別進行加權,返回步驟S2,直至所有訓練數據合并為一個數據,并得到最終的訓練結果。

在上述技術方案中,當所述訓練數據采用空間數據時,所述預設規則為:按照空間坐標信息將所述空間數據均勻劃分為規模相當的若干份。

在上述技術方案中,所述屬性值曲線為精度曲線或誤差曲線。

在上述技術方案中,步驟S3具體為:

比較每份屬性值曲線的相似度,判斷相似度是否達到閾值;

若相似度達到閾值,則隨機保留其中一份屬性值曲線對應的數據和初步訓練結果;若相似度未達到閾值,則保留所有屬性值曲線對應的數據和初步訓練結果。

在上述技術方案中,所述相似度的閾值上限為95%,所述相似度的閾值下限為99%。

本發明根據每份屬性值曲線的相似度,保留相應的屬性值曲線對應的數據和初步訓練結果,并根據屬性值曲線的相似度對保留的數據和初步訓練結果進行排序,將相鄰的相似度達到閾值的屬性值曲線對應的數據和初步訓練結果分別進行加權,直至所有訓練數據合并為一個數據,并得到最終的訓練結果,操作簡單,易于實現,并行度較高,極大的減小了計算量,提高了計算效率。

附圖說明

為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。

圖1為本發明中一種機器學習中避免大數據冗余的方法流程圖;

圖2為本發明中訓練數據采用空間數據時的計算示意圖。

具體實施方式

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于曙光信息產業(北京)有限公司,未經曙光信息產業(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201611130182.X/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 97久久精品一区二区三区观看| 少妇高潮大叫喷水| 免费欧美一级视频| 午夜社区在线观看| 日韩在线一区视频| 久久99精品一区二区三区| 国产一级自拍| 一区二区在线国产| 中文字幕制服狠久久日韩二区| 国产亚洲精品久久午夜玫瑰园| 欧美日韩国产在线一区| 色婷婷精品久久二区二区6| 国产精品对白刺激在线观看| 在线精品国产一区二区三区| 国产特级淫片免费看| 欧美一级免费在线视频| 久久久久久久久久国产精品| 午夜电影三级| 亚洲精品456在线播放| 日本丰满岳妇伦3在线观看| 国产亚洲久久| 欧美一区二区三区激情视频| 日本道欧美一区二区aaaa| 一区二区91| 在线观看国产91| 国产91热爆ts人妖系列| 91在线一区| 91精品国产麻豆国产自产在线| 93精品国产乱码久久久| 亚洲精品卡一| 综合在线一区| 日韩av在线网址| 91看片app| 91精品一区二区在线观看| 日韩精品一区二区三区免费观看| 欧美乱妇高清无乱码一级特黄| 中文文精品字幕一区二区| 国产色婷婷精品综合在线播放| 久久99久国产精品黄毛片入口| 91偷拍网站| 中文字幕一区二区三区日韩精品| 7777久久久国产精品| 国产69精品福利视频| 国产一区二区三级| 国产二区精品视频| 欧美精品日韩精品| 国产一区二区麻豆| 日本少妇高潮xxxxⅹ| 国产精品自产拍在线观看桃花| 日韩欧美国产高清91| 午夜一级免费电影| 国产精品乱战久久久| 国产伦理一区| 久久噜噜少妇网站| 日韩av免费网站| 狠狠色狠狠色合久久伊人| 欧美freesex极品少妇| 国产欧美日韩在线观看| 国产精品欧美一区二区三区奶水 | 久久婷婷国产综合一区二区| 91在线一区二区| 久久精品国产综合| 岛国精品一区二区| 91久久香蕉国产日韩欧美9色| 日本二区在线观看| 亚洲欧洲日韩av| 最新日韩一区| 国产精品人人爽人人做av片| 国产1区在线观看| 午夜天堂电影| 日本一区二区在线电影| 午夜一级电影| 精品一区电影国产| 99国产精品9| 在线国产一区二区三区| 午夜影院h| 中文文精品字幕一区二区| 日韩精品一区在线观看| 国产性猛交96| 国产大片一区二区三区| 在线视频国产一区二区| 亚洲精品国产91|