[發明專利]數據標注方法、裝置和系統及存儲介質在審
| 申請號: | 201810064918.0 | 申請日: | 2018-01-23 |
| 公開(公告)號: | CN108875769A | 公開(公告)日: | 2018-11-23 |
| 發明(設計)人: | 謝津;周昕宇;張華翼 | 申請(專利權)人: | 北京邁格威科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京睿邦知識產權代理事務所(普通合伙) 11481 | 代理人: | 徐丁峰;戴亞南 |
| 地址: | 100190 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標注 數據標注 標注信息 存儲介質 反饋信息 接收用戶 減小 | ||
本發明實施例提供一種數據標注方法、裝置和系統以及存儲介質。數據標注方法包括:獲取第一數目的未標注數據及其預標注信息,預標注信息是利用標注模型對第一數目的未標注數據進行預標注得到的,預標注信息包括預標注結果;在顯示界面上顯示第一數目的未標注數據及其預標注結果;接收用戶對第一數目的未標注數據的第一反饋信息;以及根據第一反饋信息確定第一數目的未標注數據的最終標注結果。根據本發明實施例的數據標注方法、裝置和系統以及存儲介質,先由數據標注系統對未標注數據進行預標注,并且可以在顯示界面上顯示這些未標注數據及其預標注結果,用戶只需更改錯誤的預標注結果,這樣做可以極大地提升標注效率,減小標注成本。
技術領域
本發明涉及計算機技術領域,更具體地涉及一種數據標注方法、裝置和系統以及存儲介質。
背景技術
人工智能發展到今天,數據的作用被越來越凸顯出來。訓練好一個神經網絡模型,通常需要上百萬甚至上億量級的數據。數據的標注周期和成本直接影響了一個人工智能公司的行業競爭力。
當前數據標注平臺的數據標注流程均為人工逐一標注,基于此標注流程的標注界面也為單數據點逐一標注。當前的數據標注平臺存在以下不足:數據標注模式均為對數據進行人工逐一標注;其標注成本一般與數據集規模呈正比,在標注超大數據集時通常需要較大的人力投入和較長的標注周期。
發明內容
考慮到上述問題而提出了本發明。本發明提供了一種數據標注方法、裝置和系統以及存儲介質。
根據本發明一方面,提供了一種數據標注方法。數據標注方法包括:獲取第一數目的未標注數據及其預標注信息,預標注信息是利用標注模型對第一數目的未標注數據進行預標注得到的,預標注信息包括預標注結果;在顯示界面上顯示第一數目的未標注數據及其預標注結果;接收用戶對第一數目的未標注數據的第一反饋信息;以及根據第一反饋信息確定第一數目的未標注數據的最終標注結果。
示例性地,顯示界面包括標注區域和菜單欄區域,第一數目的未標注數據顯示在標注區域內,菜單欄區域包括用于指示標注區域內數據的標注模式的模式控件,標注模式為高概率模式、高相似模式和邊界模式中的一項或多項,獲取第一數目的未標注數據及其預標注信息包括:確定用戶通過模式控件選擇的標注模式;根據選擇的標注模式,利用標注模型對第二數目的未標注數據進行預標注,以獲得第二數目的未標注數據的預標注信息,第一數目的預標注數據為第二數目的未標注數據中的至少部分未標注數據。
示例性地,模式控件包括分別布置在不同位置的高概率控件、高相似控件和邊界控件中的一項或多項,高概率控件、高相似控件和邊界控件分別用于指示高概率模式、高相似模式和邊界模式。
示例性地,高相似控件、高概率控件和邊界控件中的一項或多項中的每一項包括正例控件和負例控件,正例控件用于控制對應標注模式下的屬于正例的未標注數據的顯示,負例控件用于控制對應標注模式下的屬于負例的未標注數據的顯示。
示例性地,模式控件為下拉列表控件,下拉列表控件提供與高概率模式、高相似模式和邊界模式中的一項或多項分別對應的下拉列表項。
示例性地,預標注信息還包括數據得分,獲取第一數目的未標注數據及其預標注信息還包括:從第二數目的未標注數據中選擇數據得分大于第一得分閾值或者小于第二得分閾值的未標注數據作為第一數目的未標注數據,或者從第二數目的未標注數據中選擇數據得分最高的預設數目的未標注數據作為第一數目的未標注數據。
示例性地,預標注信息還包括數據得分,在顯示界面上,第一數目的未標注數據是按照第一數目的未標注數據的數據得分排列的。
示例性地,顯示界面包括菜單欄區域,菜單欄區域包括隨機控件;方法還包括:當接收到針對隨機控件的選擇信息時,從未標注數據集中隨機選擇第三數目的未標注數據;在顯示界面上顯示第三數目的未標注數據;接收用戶對第三數目的未標注數據的第二反饋信息;以及根據第二反饋信息確定第三數目的未標注數據的最終標注結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京邁格威科技有限公司,未經北京邁格威科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810064918.0/2.html,轉載請聲明來源鉆瓜專利網。





