[發明專利]標注數據質量評價方法、裝置、計算機設備及存儲介質有效
| 申請號: | 201911082125.2 | 申請日: | 2019-11-07 |
| 公開(公告)號: | CN110826494B | 公開(公告)日: | 2023-06-06 |
| 發明(設計)人: | 章逸騁;陳運文;高翔;王江;陳宇;紀達麒 | 申請(專利權)人: | 達而觀信息科技(上海)有限公司 |
| 主分類號: | G06V30/40 | 分類號: | G06V30/40;G06V30/19 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 201203 上海市浦東新區中國(上海)自*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標注 數據 質量 評價 方法 裝置 計算機 設備 存儲 介質 | ||
本發明實施例公開了一種標注數據質量評價方法、裝置、計算機設備及存儲介質。所述方法包括:獲取待處理的至少一個標注樣本;分別對所述至少一個標注樣本進行標注準確性分析;對所述至少一個標注樣本進行標注一致性分析;根據準確性分析結果和一致性分析結果,生成所述標注樣本的標注質量評價結果。本發明實施例可以準確評估標注數據的質量,并減少人工成本,提高評估效率。
技術領域
本發明實施例涉及數據處理領域,尤其涉及一種標注數據質量評價方法、裝置、計算機設備及存儲介質。
背景技術
目前,在文本識別領域中,通常采用預先訓練的模型識別文本,在模型的訓練過程中,文本數據的標注質量至關重要,高質量的標注數據才能生成高質量的模型。
現有的訓練樣本可以通過人工方式或自動標注方式進行樣本標注。然而標注可能會出現錯誤。例如,標注不應被標注的數據;遺漏標注數據;標注的數據與標準數據部分重合等。
通常,標注后的樣本會采用人工復核方式進行檢查。往往人工復核還是會出現疏漏,尤其是在標注樣本的數據量大的情況下,人工檢查難以快速準確判斷出標注樣本中各標注文本的標注質量。
發明內容
本發明實施例提供了一種標注數據質量評價方法、裝置、計算機設備及存儲介質,可以準確評估標注數據的質量,并減少人工成本,提高評估效率。
第一方面,本發明實施例提供了一種標注數據質量評價方法,包括:
獲取待處理的至少一個標注樣本;
分別對所述至少一個標注樣本進行標注準確性分析;
對所述至少一個標注樣本進行標注一致性分析;
根據準確性分析結果和一致性分析結果,生成所述標注樣本的標注質量評價結果。
第二方面,本發明實施例提供了一種標注數據質量評價裝置,包括:
標注樣本獲取模塊,用于獲取待處理的至少一個標注樣本;
標注準確性分析模塊,用于分別對所述至少一個標注樣本進行標注準確性分析;
標注一致性分析模塊,用于對所述至少一個標注樣本進行標注一致性分析;
標注質量評價結果確定模塊,用于根據準確性分析結果和一致性分析結果,生成所述標注樣本的標注質量評價結果。
第三方面,本發明實施例還提供了一種設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序所述處理器執行所述程序時實現如本發明實施例中任一所述的標注數據質量評價方法。
第四方面,本發明實施例還提供了一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現如本發明實施例中任一所述的標注數據質量評價方法。
本發明實施例通過自動獲取待處理的標準樣本,并進行準確性分析和一致性分析,從準確性和一致性兩方面評價標注文本的質量,同時,省卻人工評價標注文本的成本,解決了現有技術中人工檢查標注文本的準確率低且效率低的問題,實現減少人工成本,提高評估效率,同時提高標注數據的評估準確率。
附圖說明
圖1是本發明實施例一中的一種標注數據質量評價方法的流程圖;
圖2a是本發明實施例二中的一種標注數據質量評價方法的流程圖;
圖2b是本發明實施例二中的一種標注數據質量評價方法的流程圖;
圖3是本發明實施例三中的一種標注數據質量評價裝置的結構示意圖;
圖4是本發明實施例四中的一種計算機設備的結構示意圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于達而觀信息科技(上海)有限公司,未經達而觀信息科技(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911082125.2/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





