[發明專利]訓練數據更新方法及系統、語音識別方法及系統、設備在審
| 申請號: | 202011073681.6 | 申請日: | 2020-10-09 |
| 公開(公告)號: | CN112216284A | 公開(公告)日: | 2021-01-12 |
| 發明(設計)人: | 羅超;任君;胡泓;李巍 | 申請(專利權)人: | 攜程計算機技術(上海)有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L15/06 |
| 代理公司: | 上海弼興律師事務所 31283 | 代理人: | 楊東明;張冉 |
| 地址: | 200335 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練 數據 更新 方法 系統 語音 識別 設備 | ||
1.一種語音識別模型的訓練數據更新方法,其特征在于,包括以下步驟:
將目標場景下的目標音頻數據輸入第一語音識別模型,得到第一文本;
將所述目標音頻數據輸入第二語音識別模型,得到第二文本;
比較所述第一文本和所述第二文本,得到目標核心詞;其中,所述目標核心詞由所述第一語音識別模型識別得到;
根據所述目標核心詞在所述目標音頻數據中的目標位置,從包括所述目標位置以及所述目標位置附近的部分目標音頻數據中選取標注數據;其中,所述標注數據包括所述目標位置的音頻數據;
將所述標注數據以及對應的標注文本更新至所述第二語音識別模型的訓練數據中。
2.如權利要求1所述的訓練數據更新方法,其特征在于,所述訓練數據更新方法還包括:
選取目標場景下指定日期區間內的所有通話數據作為目標音頻數據。
3.如權利要求1所述的訓練數據更新方法,其特征在于,所述比較所述第一文本和所述第二文本,得到目標核心詞的步驟包括:
從所述第一文本的分詞結果中去除與所述第二文本的分詞結果相同的詞語,得到目標核心詞。
4.如權利要求2所述的訓練數據更新方法,其特征在于,所述第一文本包括若干與通話ID一一對應的轉寫文本;所述訓練數據更新方法還包括:
篩選包括所述目標核心詞的所有轉寫文本,并記錄對應的目標通話ID;
將與所述目標通話ID對應的通話數據分別輸入所述第一語音識別模型和所述第二語音識別模型,得到第三文本和第四文本;
根據所述第三文本和所述第四文本獲取所述目標核心詞在所述目標音頻數據中的目標位置。
5.如權利要求2所述的訓練數據更新方法,其特征在于,所述從包括所述目標位置以及所述目標位置附近的部分目標音頻數據選取標注數據的步驟包括:
獲取包括所述目標位置以及所述目標位置附近的部分目標音頻數據;
分別計算所述第一語音識別模型和所述第二語音識別模型對所述部分目標音頻數據的轉寫正確率;
根據所述轉寫正確率從部分目標音頻數據中選取標注數據。
6.一種語音識別模型的訓練數據更新系統,其特征在于,包括:
第一輸入模塊,用于將目標場景下的目標音頻數據輸入第一語音識別模型,得到第一文本;
第二輸入模塊,用于將所述目標音頻數據輸入第二語音識別模型,得到第二文本;
文本比較模塊,用于比較所述第一文本和所述第二文本,得到目標核心詞;其中,所述目標核心詞由所述第一語音識別模型識別得到;
標注數據選取模塊,用于根據所述目標核心詞在所述目標音頻數據中的目標位置,從包括所述目標位置以及所述目標位置附近的部分目標音頻數據中選取標注數據;其中,所述標注數據包括所述目標位置的音頻數據;
訓練數據更新模塊,用于將所述標注數據以及對應的標注文本更新至所述第二語音識別模型的訓練數據中。
7.如權利要求6所述的訓練數據更新系統,其特征在于,所述訓練數據更新系統還包括:
通話數據選取模塊,用于選取目標場景下指定日期區間內的所有通話數據作為目標音頻數據。
8.如權利要求6所述的訓練數據更新系統,其特征在于,所述文本比較模塊具體用于從所述第一文本的分詞結果中去除與所述第二文本的分詞結果相同的詞語,得到目標核心詞。
9.如權利要求7所述的訓練數據更新系統,其特征在于,所述第一文本包括若干與通話ID一一對應的轉寫文本;所述訓練數據更新系統還包括目標位置獲取模塊,用于篩選包括所述目標核心詞的所有轉寫文本,并記錄對應的目標通話ID;以及將與所述目標通話ID對應的通話數據分別輸入所述第一語音識別模型和所述第二語音識別模型,得到第三文本和第四文本;并根據所述第三文本和所述第四文本獲取所述目標核心詞在所述目標音頻數據中的目標位置。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于攜程計算機技術(上海)有限公司,未經攜程計算機技術(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011073681.6/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





