[發(fā)明專利]一種數據處理方法和裝置有效
| 申請?zhí)枺?/td> | 201910753601.2 | 申請日: | 2019-08-15 |
| 公開(公告)號: | CN110472054B | 公開(公告)日: | 2023-05-23 |
| 發(fā)明(設計)人: | 張晴晴;劉天宇;楊金富;羅磊;馬光謙;汪洋 | 申請(專利權)人: | 北京愛數智慧科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/169;G10L15/06 |
| 代理公司: | 北京智沃律師事務所 11620 | 代理人: | 梁晨 |
| 地址: | 100044 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據處理 方法 裝置 | ||
本發(fā)明公開一種數據處理方法和裝置,該方法包括以下步驟:在多個標注員完成多種類型的語音標注任務后,獲取每個所述標注員的標注數據,所述標注數據用于表示對語音標注任務的標注質量;根據所述標注數據,對所述多個標注員進行聚類,確定每個所述標注員擅長的任務類型和不擅長的任務類型。本發(fā)明通過多種類型的語音標注任務對標注員進行自動培訓平臺,有利于標注員熟悉任務規(guī)則和培訓標注能力,利用標注員的標注數據對標注員進行準確性維度和能效比維度的分析,確定標注員擅長的任務,對標注員的能力有一個先驗知識,從而針對性地分配標注任務,提高標注質量,并輔助質檢員工作,減少質檢員的工作。
技術領域
本發(fā)明涉及計算機技術領域,特別涉及一種數據處理方法和裝置。
背景技術
隨著語音技術的發(fā)展,對語音模型的要求越來越高,而一個有效的語音模型依賴海量的語音數據進行訓練,且數據準確性越高,語音模型越好。
現有技術中,通常采用人工標注的方法獲取標注結果,再通過質檢對標注結果進行合格驗收,而標注員在領取任務后需要熟悉標注規(guī)則和標注任務,標注結果的質量相對較差,質檢員需要對標注結果進行嚴格把控,導致標注效率較低。
發(fā)明內容
本發(fā)明提供了一種數據處理方法和裝置,以提高標注效率。
本發(fā)明提供了一種數據處理方法,包括以下步驟:
在多個標注員完成多種類型的語音標注任務后,獲取每個所述標注員的標注數據,所述標注數據用于表示對語音標注任務的標注質量;
根據所述標注數據,對所述多個標注員進行聚類,確定每個所述標注員擅長的任務類型和不擅長的任務類型。
可選地,所述標注數據包括語音文本正確性;
所述獲取每個所述標注員的標注數據,包括:
獲取每個所述標注員完成每個語音標注任務后得到的標注文本;
通過對所述標注文本與所述語音標注任務對應的標準文本進行對比,確定多種類型錯誤的出現次數,所述多種類型錯誤包括插入錯誤、刪除錯誤和替換任務;
根據所述語音標注任務的類型,確定每種類型的錯誤的權重;
根據所述每種類型錯誤的權重,計算文本錯誤率;
判斷所述文本錯誤率是否大于第一預設閾值,如果是,則確定語音文本不正確;否則,確定語音文本正確。
可選地,所述標注數據包括標注時間正確性;
所述獲取每個所述標注員的標注數據,包括:
獲取每個所述標注員完成每個語音標注任務后得到的標注時間點;
獲取所述標注時間點與所述語音標注任務對應的標準時間點的交集和并集;
判斷所述交集與所述并集的比值是否大于第二預設閾值,如果是,則確定標注時間不正確;否則,確定標注時間正確。
可選地,所述標注數據包括完成任務所需時間、文本正確分數、語音有效時長、完成任務的次數、一次通過率、文本修改率和能效比。
可選地,所述根據所述標注數據,對所述多個標注員進行聚類,確定每個所述標注員擅長的任務類型和不擅長的任務類型,包括:
針對每個標注員,判斷其對每種類型的語音標注任務的標注數據是否滿足預設條件,若滿足,則確定該標注員擅長該類型的語音標注任務;否則,確定該標注員不擅長該類型的語音標注任務。
本發(fā)明還提供了一種數據處理裝置,包括:
獲取模塊,用于在多個標注員完成多種類型的語音標注任務后,獲取每個所述標注員的標注數據,所述標注數據用于表示對語音標注任務的標注質量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京愛數智慧科技有限公司,未經北京愛數智慧科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910753601.2/2.html,轉載請聲明來源鉆瓜專利網。





