[發明專利]數據標注方法、裝置和系統及存儲介質在審
| 申請號: | 201810064292.3 | 申請日: | 2018-01-23 |
| 公開(公告)號: | CN108875768A | 公開(公告)日: | 2018-11-23 |
| 發明(設計)人: | 謝津;周昕宇;張華翼 | 申請(專利權)人: | 北京邁格威科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京睿邦知識產權代理事務所(普通合伙) 11481 | 代理人: | 徐丁峰;戴亞南 |
| 地址: | 100190 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標注 數據標注 標注信息 存儲介質 反饋信息 人力成本 數據集中 顯示裝置 數據池 減小 輸出 檢查 | ||
本發明實施例提供一種數據標注方法、裝置和系統以及存儲介質。數據標注方法包括:從數據池的未標注數據集中選擇第一數目的未標注數據;利用標注模型對第一數目的未標注數據進行預標注,以獲得第一數目的未標注數據的預標注信息,其中,預標注信息包括預標注結果;向顯示裝置輸出第二數目的未標注數據和第二數目的未標注數據的預標注結果,其中,第二數目的未標注數據為第一數目的未標注數據中的至少部分未標注數據;接收針對第二數目的未標注數據的預標注結果的反饋信息;以及基于反饋信息確定第二數目的未標注數據的最終標注結果。未標注數據先由數據標注系統進行預標注之后再交給用戶進行檢查,這樣可以大大減小數據標注的人力成本。
技術領域
本發明涉及計算機技術領域,更具體地涉及一種數據標注方法、裝置和系統以及存儲介質。
背景技術
人工智能發展到今天,數據的作用被越來越凸顯出來。訓練好一個神經網絡模型,通常需要上百萬甚至上億量級的數據。數據的標注周期和成本直接影響了一個人工智能公司的行業競爭力。
當前的數據標注平臺存在以下不足:數據標注模式均為對數據進行人工逐一標注;其標注成本一般與數據集規模呈正比,在標注超大數據集時通常需要較大的人力投入和較長的標注周期。
發明內容
考慮到上述問題而提出了本發明。本發明提供了一種數據標注方法、裝置和系統以及存儲介質。
根據本發明一方面,提供了一種數據標注方法。數據標注方法包括:從數據池的未標注數據集中選擇第一數目的未標注數據;利用標注模型對第一數目的未標注數據進行預標注,以獲得第一數目的未標注數據的預標注信息,其中,預標注信息包括預標注結果;向顯示裝置輸出第二數目的未標注數據和第二數目的未標注數據的預標注結果,其中,第二數目的未標注數據為第一數目的未標注數據中的至少部分未標注數據;接收針對第二數目的未標注數據的預標注結果的反饋信息;以及基于反饋信息確定第二數目的未標注數據的最終標注結果。
示例性地,預標注信息還包括數據得分,在顯示裝置上,第二數目的未標注數據是按照第二數目的未標注數據的數據得分排列的,在向顯示裝置輸出第二數目的未標注數據和第二數目的未標注數據的預標注結果之前,方法還包括:根據第二數目的未標注數據的數據得分對第二數目的未標注數據進行排序。
示例性地,預標注信息還包括數據得分,在向顯示裝置輸出第二數目的未標注數據和第二數目的未標注數據的預標注結果之前,方法還包括:從第一數目的未標注數據中選擇數據得分大于第一得分閾值或者小于第二得分閾值的未標注數據作為第二數目的未標注數據;或者從第一數目的未標注數據中選擇數據得分最高的第二數目的未標注數據。
示例性地,利用標注模型對第一數目的未標注數據進行預標注,以獲得第一數目的未標注數據的預標注信息包括:在預定標注策略為高概率策略或邊界策略的情況下,對于第一數目的未標注數據中的每個未標注數據,將該未標注數據輸入標注模型進行類別預測,標注模型的輸出結果用于指示該未標注數據屬于至少一個預定類別的概率;以及確定至少一個預定類別中概率最大的預定類別為該未標注數據的預標注結果。
示例性地,預標注信息還包括數據得分,利用標注模型對第一數目的未標注數據進行預標注,以獲得第一數目的未標注數據的預標注信息還包括:在預定標注策略為高概率策略的情況下,對于第一數目的未標注數據中的每個未標注數據,確定該未標注數據屬于至少一個預定類別的概率中的最大概率,并將最大概率作為該未標注數據的數據得分。
示例性地,利用標注模型對第一數目的未標注數據進行預標注,以獲得第一數目的未標注數據的預標注信息包括:在預定標注策略為高相似策略的情況下,對于第一數目的未標注數據中的每個未標注數據,將該未標注數據輸入標注模型,以提取該未標注數據的數據特征;根據該未標注數據的數據特征與已標注數據集中的至少一個已標注數據的數據特征,計算該未標注數據與至少一個已標注數據之間的相似度;確定與該未標注數據之間的相似度最大的已標注數據所屬的類別為該未標注數據的預標注結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京邁格威科技有限公司,未經北京邁格威科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810064292.3/2.html,轉載請聲明來源鉆瓜專利網。





