[發明專利]模型數據集的建立方法及云系統在審
| 申請號: | 201810096270.5 | 申請日: | 2018-01-31 |
| 公開(公告)號: | CN108197668A | 公開(公告)日: | 2018-06-22 |
| 發明(設計)人: | 梁昊;南一冰;廉士國 | 申請(專利權)人: | 達闥科技(北京)有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京新知遠方知識產權代理事務所(普通合伙) 11397 | 代理人: | 申楠;劉玲 |
| 地址: | 100102 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 模型數據 分類模型 分類標記 分類識別 數據集中 數據集 云系統 建立模型 聚類結果 人工標注 時間成本 數據特征 自動標注 校驗 初始化 聚類 申請 測試 | ||
本申請提供了模型數據集的建立方法及云系統,所述方法包括:根據選取的數據特征對數據集中的數據進行聚類,并根據聚類結果對所述數據集中的數據進行分類標記;根據分類標記后的數據集對初始化分類模型進行訓練,得到訓練好的分類模型;對訓練好的分類模型進行測試,并根據測試結果建立模型數據集。本申請能夠利用最終確定的用于實現分類識別的模型數據集,免去人工標注及其校驗所耗費的人力和時間成本,從而實現對模型數據集的自動標注,同時有效提升分類識別的效率及準確性。
技術領域
本申請涉及深度學習技術領域,特別涉及模型數據集的建立方法及云系統。
背景技術
近年來,基于深度學習的分類方法相較于傳統的分類方法,在分類效果上具有顯著的突破,且分類準確度較高,隨著ResNet,DenseNet等深度學習網絡不斷地被提出,基于深度學習的分類方法逐漸成為分類應用的主要潮流。
基于深度學習的分類方法主要通過巨大的訓練集,在分類模型中通過前向傳導和反向傳輸不斷訓練模型參數,得到訓練好的分類模型,以達到理想的分類效果,而理想的分類效果主要依賴于訓練集中所屬類別的代表性和其對應標簽的準確性。為了保證標簽的準確性,目前的訓練集標簽均采用人工標注的方式確定樣本數據所屬的類別,但對于較為復雜的分類任務,訓練集中的數據量多為十萬乃至百萬千萬的數量級,人工標注的方式導致耗費的人力和時間成本較高,例如,Magenet圖像分類大賽,訓練集標簽的人工標注是依靠MTurk眾包平臺實現的。
現有技術不足在于,由于人工標注方式存在一定的主觀性,為保證標注結果的客觀性和準確性,通常還需要對標注過程進行監管或者對標注結果進行篩查,從而導致人工標注的成本更高。因此,對分類模型的訓練通常依靠固定的訓練集,并依據訓練集所包含的類別實現分類識別,若需要依據特定的需求構建訓練集以實現對特定類別的識別,則導致人工標注及其校驗所耗費的人力和時間成本較高。可見,對人工標注方式的依賴限制了基于深度學習的分類方法在實際應用中的全面推廣。
發明內容
有鑒于此,本發明實施例期望提供模型數據集的建立方法及云系統,以解決現有基于深度學習的分類方法過于依賴人工標注方式,導致人工標注及其校驗所耗費的人力和時間成本較高的技術問題。
在一個方面,本申請實施例提供了一種模型數據集的建立方法,包括:
根據選取的數據特征對數據集中的數據進行聚類,并根據聚類結果對所述數據集中的數據進行分類標記;
根據分類標記后的數據集對初始化分類模型進行訓練,得到訓練好的分類模型;
對訓練好的分類模型進行測試,并根據測試結果建立模型數據集。
在另一個方面,本申請實施例提供了一種模型數據集的建立云系統,包括:
聚類服務器,用于根據選取的數據特征對數據集中的數據進行聚類,并根據聚類結果對所述數據集中的數據進行分類標記;
訓練服務器,用于根據分類標記后的數據集對初始化分類模型進行訓練,得到訓練好的分類模型;
測試服務器,用于對訓練好的分類模型進行測試,并根據測試結果建立模型數據集。
在另一個方面,本申請實施例提供了一種電子設備,所述電子設備包括:
收發設備,存儲器,一個或多個處理器;以及
一個或多個模塊,所述一個或多個模塊被存儲在所述存儲器中,并被配置成由所述一個或多個處理器執行,所述一個或多個模塊包括用于執行上述方法中各個步驟的指令。
在另一個方面,本申請實施例提供了一種與電子設備結合使用的計算機程序產品,所述計算機程序產品包括計算機可讀的存儲介質和內嵌于其中的計算機程序機制,所述計算機程序機制包括用于執行上述方法中各個步驟的指令。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于達闥科技(北京)有限公司,未經達闥科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810096270.5/2.html,轉載請聲明來源鉆瓜專利網。





