[發明專利]語音數據標注方法、裝置、計算機設備及存儲介質在審
| 申請號: | 201810960792.5 | 申請日: | 2018-08-22 |
| 公開(公告)號: | CN109192194A | 公開(公告)日: | 2019-01-11 |
| 發明(設計)人: | 高偉;陳澤明 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G10L15/01 | 分類號: | G10L15/01;G10L15/06;G10L15/28 |
| 代理公司: | 北京鴻德海業知識產權代理事務所(普通合伙) 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音數據 標注 計算機設備 存儲介質 結果判定 線上服務 負樣本 正樣本 語音 積累 應用 | ||
1.一種語音數據標注方法,其特征在于,包括:
獲取線上服務積累的語音數據,每條語音數據中包括:用戶的語音及對應的識別結果;
按照預先設定的至少一種判別方式,對語音數據的識別結果的準確性進行判別,標注出識別結果判定為準確的正樣本語音數據以及識別結果判定為不準確的負樣本語音數據。
2.根據權利要求1所述的方法,其特征在于,
該方法進一步包括:獲取負樣本語音數據的修正后的識別結果,將修正后的負樣本語音數據作為正樣本語音數據進行使用。
3.根據權利要求1所述的方法,其特征在于,
所述判別方式包括:基于固定過濾規則的判別方式;
所述基于固定過濾規則的判別方式包括:
針對任一語音數據,若確定所述語音數據的識別結果中包含單個字或詞的連續重復,則判定所述語音數據的識別結果不準確;
針對任一語音數據,若確定所述語音數據的語音長度與識別結果長度不匹配,則判定所述語音數據的識別結果不準確;
針對任一語音數據,若確定所述語音數據的識別結果中包含錯誤碼,則判定所述語音數據的識別結果不準確;
針對任一語音數據,若確定所述語音數據的識別結果屬于預定的常見錯誤案例,則判定所述語音數據的識別結果不準確。
4.根據權利要求1所述的方法,其特征在于,
該方法進一步包括:獲取用戶的線上日志數據;
所述判別方式包括:基于用戶行為分析的判別方式;
所述基于用戶行為分析的判別方式包括:
針對任一語音數據,若根據所述線上日志數據確定出所述語音數據的識別結果被用戶進行了修改,則判定所述語音數據的修改后的識別結果準確;
針對任一語音數據,若根據所述線上日志數據確定出用戶針對所述語音數據的識別結果執行了預定的后續動作,則判定所述語音數據的識別結果準確;
針對任一語音數據,若根據所述線上日志數據確定出用戶在輸入所述語音數據的語音之前的預定時長內至少一次輸入過發音相似的語音,則判定所述語音數據的識別結果準確。
5.根據權利要求1所述的方法,其特征在于,
所述判別方式包括:基于語音與文本特征分析的判別方式;
所述基于語音與文本特征分析的判別方式包括:
針對任一語音數據,若確定所述語音數據的語音的信噪比低于預定閾值,則判定所述語音數據的識別結果不準確;
針對任一語音數據,若確定所述語音數據的語音中包含長靜音和/或長白噪聲,則判定所述語音數據的識別結果不準確;
針對任一語音數據,若確定所述語音數據的識別結果的文法不符合文法要求,則判定所述語音數據的識別結果不準確。
6.根據權利要求1所述的方法,其特征在于,
所述判別方式包括:基于用戶口音的判別方式;
所述基于用戶口音的判別方式包括:
針對任一語音數據,若確定所述語音數據對應的用戶的口音為標準普通話,則判定所述語音數據的識別結果準確。
7.根據權利要求6所述的方法,其特征在于,
該方法進一步包括:若用戶的口音為地方方言或帶有地域口音的普通話,則通過對用戶周邊生活人群進行分析以及積累,形成用戶的口音對應的語音數據集。
8.根據權利要求1所述的方法,其特征在于,
所述判別方式包括:基于多模型聯合的判別方式;
所述基于多模型聯合的判別方式包括:
針對任一語音數據,分別利用至少兩個語音識別模型對所述語音數據中的語音進行語音識別,并分別將每個語音識別模型的識別結果與所述語音數據的識別結果進行比較,統計識別結果與所述語音數據的識別結果一致的語音識別模型占全部語音識別模型的比例,若所述比例大于或等于預定閾值,則判定所述語音數據的識別結果準確;
其中,所述至少兩個語音識別模型屬于兩種不同的類型,所述類型包括:統計性模型以及神經網絡模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810960792.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種語音識別產品測試方法和測試裝置
- 下一篇:一種語音識別測試系統及方法





