[發明專利]樣本數據處理方法、裝置和計算機可讀存儲介質在審
| 申請號: | 201711318024.1 | 申請日: | 2017-12-12 |
| 公開(公告)號: | CN108009589A | 公開(公告)日: | 2018-05-08 |
| 發明(設計)人: | 余宗橋 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 深圳市隆天聯鼎知識產權代理有限公司 44232 | 代理人: | 劉抗美;葉虹 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 樣本 數據處理 方法 裝置 計算機 可讀 存儲 介質 | ||
本發明揭示了一種樣本數據處理方法、裝置和計算機可讀存儲介質。所述方法包括:獲取分類模型;通過分類模型進行模型重訓練樣本數據自動標注;顯示模型重訓練樣本數據以及自動標注結果,接收對顯示的自動標注結果修正的選擇,獲得模型重訓練樣本數據的標注擴充結果;將模型重訓練樣本數據和標注擴充結果回饋至模型訓練,直至所得到分類模型不再獲得分類性能提升進行了模型重訓練樣本數據所對應標注結果的迭代優化,以完成所對應標注結果的糾錯查漏過程,提高標注準確性,不斷擴充樣本數據,由分類模型的自動標注而獲得相應自動標注結果,經由修正的進行得到更為精準的標注擴充結果,獲得規模龐大的樣本數據以及對此而進行的量多維度廣的標注。
技術領域
本發明涉及計算機應用技術領域,特別涉及一種樣本數據處理方法、裝置和計算機可讀存儲介質。
背景技術
隨著計算機應用技術的發展,機器學習技術日趨成熟,且獲得越來越廣泛的應用,進而落地于各種業務場景。根據所需要實現的業務場景,基于機器學習技術進行模型訓練,獲得適用于所需實現業務場景的分類模型,進而得以為此業務場景通過所獲得的分類模型而提供所輸入數據的自動識別功能。
然而,進行模型訓練之前,需為此而提供樣本數據,以及為每一樣本數據而標記的標簽,所標記的標簽是樣本數據的標注結果。
用于模型訓練的樣本數據往往規模較大,而為樣本數據進行的標簽標記往往也是成體系的,所構建的標簽體系規模也較為龐大,以盡可能達到量多維度廣的目的。由此,可供標記的標簽將達到數十以至成百上千。
大規模的樣本數據以及需為每一樣本數據進行標注而構建的龐大標簽體系,對于為此而進行的人工標注而言,是無法應對的,必然導致樣本數據的標注質量很差;而對于為此從互聯網絡獲取的原始樣本數據,以及附屬于原本樣本數據的原始標簽,雖然易于滿足所需的樣本數據規模以及標簽體系,但是存在著非常高的噪聲。
綜上所述,分類模型的獲得,必不可少的需要對樣本數據進行處理,以獲取所對應的標注結果,進而方可用于進行分類模型的訓練,但是,經由人工標注以及利用互聯網絡上海量數據的獲得,都存在著樣本數據標注不準確的局限性。
發明內容
為了解決相關技術中樣本數據標注不準確的技術問題,本發明提供了一種樣本數據處理方法、裝置和計算機可讀存儲介質。
一種樣本數據處理方法,所述方法包括:
獲取通過初始樣本數據和標注結果進行模型訓練所得到的分類模型;
通過所述分類模型進行模型重訓練樣本數據的自動標注,所述模型重訓練樣本數據是對所述初始樣本數據的擴充;
獲取所述模型重訓練樣本數據對應的自動標注結果;
顯示所述模型重訓練樣本數據以及所對應自動標注結果,并接收對顯示所述自動標注結果進行修正的選擇,獲得所述模型重訓練樣本數據的標注擴充結果;
將所述模型重訓練樣本數據和標注擴充結果回饋至所述模型訓練,直至所得到分類模型不再獲得分類性能提升。
一種樣本數據處理裝置,所述裝置包括:
初版模型獲取模塊,用于獲取通過初始樣本數據和標注結果進行模型訓練所得到的分類模型;
自動標注模塊,用于通過所述分類模型進行模型重訓練樣本數據的自動標注,所述模型重訓練樣本數據是對所述初始樣本數據的擴充;
結果獲取模塊,用于獲取所述模型重訓練樣本數據對應的自動標注結果;
修正模塊,用于顯示所述模型重訓練樣本數據以及所對應自動標注結果,并接收對顯示的所述自動標注結果進行修正的選擇,獲得所述模型重訓練樣本數據的標注擴充結果;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711318024.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:探針傳聲器高溫校準裝置
- 下一篇:一種用于提升噸袋強度和耐溫性能的填料





