[發明專利]語音數據標注方法、裝置、計算機設備及存儲介質在審
| 申請號: | 201810960792.5 | 申請日: | 2018-08-22 |
| 公開(公告)號: | CN109192194A | 公開(公告)日: | 2019-01-11 |
| 發明(設計)人: | 高偉;陳澤明 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G10L15/01 | 分類號: | G10L15/01;G10L15/06;G10L15/28 |
| 代理公司: | 北京鴻德海業知識產權代理事務所(普通合伙) 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音數據 標注 計算機設備 存儲介質 結果判定 線上服務 負樣本 正樣本 語音 積累 應用 | ||
本發明公開了語音數據標注方法、裝置、計算機設備及存儲介質,其中方法包括:獲取線上服務積累的語音數據,每條語音數據中包括:用戶的語音及對應的識別結果;按照預先設定的至少一種判別方式,對語音數據的識別結果的準確性進行判別,標注出識別結果判定為準確的正樣本語音數據以及識別結果判定為不準確的負樣本語音數據。應用本發明所述方案,能夠提升標注效率和標注結果的準確性等。
【技術領域】
本發明涉及計算機應用技術,特別涉及語音數據標注方法、裝置、計算機設備及存儲介質。
【背景技術】
隨著人們日常生活水平的提高和科技的日新月異,人們希望通過更自然的方式進行人機對話,獲取信息和服務,因此對語音這種交互方式的識別準確率的要求也越來越高。
相應地,就需要有識別準確的語音識別模型,而語音識別模型的訓練、優化、評估等工作,均依賴大量標注準確的語音數據。
目前,語音標注主要采用人工標注方式,這種方式在實際應用中至少存在以下問題:效率低下:語音標注工作,當前基本靠人耳聽、手工記錄等方式進行,一個人標注幾個小時的高準確率語音數據,已經算是超高水平產出,而實際需要的往往是數萬小時的語音數據;準確性不足:人工標注工作重復單調,長期從事該工作的人很容易產生疲勞感,從而導致標注錯誤。
【發明內容】
有鑒于此,本發明提供了語音數據標注方法、裝置、計算機設備及存儲介質。
具體技術方案如下:
一種語音數據標注方法,包括:
獲取線上服務積累的語音數據,每條語音數據中包括:用戶的語音及對應的識別結果;
按照預先設定的至少一種判別方式,對語音數據的識別結果的準確性進行判別,標注出識別結果判定為準確的正樣本語音數據以及識別結果判定為不準確的負樣本語音數據。
一種語音數據標注裝置,包括:獲取單元以及標注單元;
所述獲取單元,用于獲取線上服務積累的語音數據,每條語音數據中包括:用戶的語音及對應的識別結果;
所述標注單元,用于按照預先設定的至少一種判別方式,對語音數據的識別結果的準確性進行判別,標注出識別結果判定為準確的正樣本語音數據以及識別結果判定為不準確的負樣本語音數據。
一種計算機設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執行所述程序時實現如以上所述的方法。
一種計算機可讀存儲介質,其上存儲有計算機程序,所述程序被處理器執行時實現如以上所述的方法。
基于上述介紹可以看出,本發明所述方案中可針對線上服務積累的語音數據,自動地將其標注為正樣本和負樣本,從而克服了人工標注所存在的問題,提升了標注效率和標注結果的準確性,并實現了對于線上服務積累的語音數據的有效利用等。
【附圖說明】
圖1為本發明所述語音數據標注方法實施例的流程圖。
圖2為本發明所述語音識別效果提升閉環示意圖。
圖3為本發明所述語音數據標注裝置實施例的組成結構示意圖。
圖4示出了適于用來實現本發明實施方式的示例性計算機系統/服務器12的框圖。
【具體實施方式】
為了使本發明的技術方案更加清楚、明白,以下參照附圖并舉實施例,對本發明所述方案進行進一步說明。
顯然,所描述的實施例是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域技術人員在沒有作出創造性勞動前提下所獲得的所有其它實施例,都屬于本發明保護的范圍。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810960792.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種語音識別產品測試方法和測試裝置
- 下一篇:一種語音識別測試系統及方法





