[發明專利]標注數據質量評價方法、裝置、計算機設備及存儲介質有效
| 申請號: | 201911082125.2 | 申請日: | 2019-11-07 |
| 公開(公告)號: | CN110826494B | 公開(公告)日: | 2023-06-06 |
| 發明(設計)人: | 章逸騁;陳運文;高翔;王江;陳宇;紀達麒 | 申請(專利權)人: | 達而觀信息科技(上海)有限公司 |
| 主分類號: | G06V30/40 | 分類號: | G06V30/40;G06V30/19 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 201203 上海市浦東新區中國(上海)自*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標注 數據 質量 評價 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種標注數據質量評價方法,其特征在于,包括:
獲取待處理的至少一個標注樣本;
分別對所述至少一個標注樣本進行標注準確性分析;
對所述至少一個標注樣本進行標注一致性分析;
根據準確性分析結果和一致性分析結果,生成所述標注樣本的標注質量評價結果;
所述分別對所述至少一個標注樣本進行標注準確性分析,包括:
獲取所述標注樣本匹配的原始文本;其中,所述原始文本中不包括任何標注數據;采用預先訓練的模型對所述原始文本進行標注,得到預測標注數據;將所述標注樣本包括的待評價的標注數據與所述預測標注數據進行比較,得到所述標注樣本的準確性分析結果;
所述對所述至少一個標注樣本進行標注一致性分析,包括:
對所述至少一個標注樣本中待評價的標注數據進行分類,形成至少一個類,每個類包括至少一個初始標注文本;分別對各所述類的初始標注文本進行一致性分析;其中,所述一致性分析包括邊界一致性分析和/或章節一致性分析;如果屬于同一類的初始標注文本一致,則所述類中全部初始標注文本的一致性數據類型為一致數據;如果屬于同一類的初始標注文本不一致,則所述類中滿足設定占比條件的初始標注文本的一致性數據類型為不一致數據;將所述標注樣本的各所述初始標注文本的一致性數據類型和各所述初始標注文本關聯的信息作為所述標注樣本的一致性分析結果;
所述將所述標注樣本包括的待評價的標注數據與所述預測標注數據進行比較,得到所述標注樣本的準確性分析結果,包括:
獲取所述待評價的標注數據中包括的全部初始標注文本,并逐一與所述預測標注數據中匹配的預測標注文本進行比較;
如果所述初始標注文本與匹配的預測標注文本相同,則確定所述初始標注文本的準確性數據類型為正確標注數據;
如果在所述預測標注數據中不存在與所述初始標注文本匹配的預測標注文本,則確定所述初始標注文本的準確性數據類型為多余標注數據;
如果所述初始標注文本與匹配的預測標注文本不同,則確定所述初始標注文本的準確性數據類型為錯誤標注數據;
如果所述待評價的標注數據中不存在與所述預測標注數據中預測標注文本匹配的初始標注文本,在所述標注樣本中標注出與所述預測標注文本匹配的初始標注文本,且確定所述初始標注文本的準確性數據類型為遺漏標注數據;
將所述標注樣本的各所述初始標注文本的準確性數據類型和各所述初始標注文本關聯的信息作為所述標注樣本的準確性分析結果。
2.根據權利要求1所述的方法,其特征在于,所述預先訓練的模型通過將所述標注樣本作為訓練樣本訓練形成。
3.根據權利要求1所述的方法,其特征在于,在生成所述標注樣本的標注質量評價結果之后,還包括:
生成標注優化信息,以提示用戶優化所述標注樣本中的標注數據。
4.根據權利要求1所述的方法,其特征在于,所述根據準確性分析結果和一致性分析結果,生成所述標注樣本的標注質量評價結果,包括:
如果查詢到所述標注樣本的歷史標注質量評價結果,從所述準確性分析結果和所述一致性分析結果中,提取與所述歷史標注質量評價結果匹配的數據作為無效數據;
將所述無效數據從所述準確性分析結果和所述一致性分析結果中刪除,形成所述標注樣本的標注質量評價結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于達而觀信息科技(上海)有限公司,未經達而觀信息科技(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911082125.2/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





