[發明專利]一種基于復用的競賽數據集自動化處理系統及方法有效
| 申請號: | 201910645848.2 | 申請日: | 2019-07-17 |
| 公開(公告)號: | CN110389978B | 公開(公告)日: | 2020-10-23 |
| 發明(設計)人: | 劉笑臣;任永亮;楊菲;李嘉懿;賀同路;郭學棟 | 申請(專利權)人: | 北京智能工場科技有限公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F21/62;G06N20/00 |
| 代理公司: | 北京君莫知識產權代理事務所(普通合伙) 11715 | 代理人: | 崔云鶴 |
| 地址: | 100193 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 競賽 數據 自動化 處理 系統 方法 | ||
本發明提出了一種基于復用的競賽數據集自動化處理系統及方法,通過本發明的技術方案,可以對原始數據集進行自動整理和劃分,并上傳到競賽網站服務器上。其中,包括對原始數據集進行自動整理和分割和上傳,生成競賽網站數據集,以解決現有技術中人工整理和分割數據集造成的代碼不能復用,整理效率低下,以及分割后的子數據集樣本不符合整個數據集樣本的概率密度分布問題。本發明設計的分割數據集的方法可以對標注屬性為類別、標注屬性為數值以及多屬性標注的數據進行分層抽樣,提高了抽樣的準確性,使得分割出的子數據集合中的數據分布更符合原數據集的數據分布。
技術領域
本發明屬于數據處理技術領域,尤其涉及一種基于復用的競賽數據集自動化處理系統及方法。
背景技術
人工智能目前已被廣泛應用于計算機視覺、語音處理及自然語言處理等許多領域,其中機器學習和深度學習技術是近年來最火熱的人工智能算法之一。機器學習和深度學習作為數據驅動的計算機技術,通過學習、總結和歸納已知數據集合中數據分布的模式來預測未知數據的模式。一般情況下機器學習技術使用一個或多個數據集合來訓練模型和驗證模型的預測能力。這樣的數據集合稱為數據集,數據集通常由專業人士進行收集和整理。數據類型可以是圖片、文字、音頻、視頻等多種格式。大部分數據集不但包含數據本身,還包括了每條數據所對應的標注,這樣的標注稱為數據的真實值,比如在身高數據集中每條數據可以是個體的體重,年齡等特征,而真實值是個體的身高。
機器學習和深度學習技術對于數據具有依賴性,即機器學習模型更傾向于對已知數據的模式進行較準確的估計,而對未知的數據則無法像已知數據一樣得到同樣準確度的預測。然而,在現實世界中絕大部分數據是未知的。這就導致現有技術中的人工智能模型構建時,大多時候只能先采用已有的已知數據,這個階段必須提供大量的數據進行訓練處理。人工智能訓練模型的時候,數據是最重要的因素,只有通過大數據訓練,才能讓訓練的模型更接近于實際需求。比如,自動駕駛的模型訓練,現在基本是靠自動駕駛汽車上路測試收集數據訓練模型,路上的汽車只有采集到更多可能的場景,才能確保訓練出的模型更接近實際路況。
對于規模非常大的數據集而言,速度很重要。主流的深度學習框架有TensorFlow、Caffe、Keras、Theano等,它們大多在單節點服務器通過GPU加速完成模型訓練。然而,此間遇到的兩大問題包括:數據量不夠或者數據量太大。CN109460792A公開一種基于圖像識別的人工智能模型訓練方法及裝置。該人工智能模型訓練方法包括:獲取基準樣本集、注冊樣本集以及驗證集;以GoogLeNet網絡結構和基準樣本集為依據訓練原始人工智能模型;對原始人工智能模型進行優化迭代訓練,得到至少一個優化人工智能模型;輸入驗證集,得到原始準確率以及與至少一個優化準確率;判斷至少一個優化準確率中是否存在一個滿足限制條件的最優準確率;當最優準確率存在的時候,確定最優準確率對應的優化人工智能模型為最優人工智能模型。
一般來說,對于同一個化合生命體無法執行的或復雜或規模龐大的任務,可以提出多種不同的人工智能算法。本領域技術人員所熟知的,包括神經網絡(Neural network)、RL強化學習(reinforcement learning)、深度學習(deep Learning)、遺傳算法(Gene)、機器學習(Machine Leaming)、大數據(Big data)等。為了選擇出對于同一個化合生命體無法執行的或復雜或規模龐大的任務而提出的多種不同的人工智能算法優劣,候選者提出各自的算法進行問題解決和性能測試。通常,這個過程可以采用競賽的方式進行,雖然競賽并不是唯一的方式,例如還可以進行性能評價。
目前的人工智能算法競賽主要指在機器學習技術領域通過不同的算法解決同一問題,競選出最優的解決方法,即算法模型可以達到最高準確率。這個過程就需要大量并且合適的競賽數據集作為支撐。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京智能工場科技有限公司,未經北京智能工場科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910645848.2/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





