[發明專利]基于人機交互場景的語音識別糾錯方法、裝置以及設備有效
| 申請號: | 202110236299.0 | 申請日: | 2021-03-03 |
| 公開(公告)號: | CN113035200B | 公開(公告)日: | 2022-08-05 |
| 發明(設計)人: | 李銳;劉權;陳志剛 | 申請(專利權)人: | 科大訊飛股份有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L15/183 |
| 代理公司: | 北京維澳專利代理有限公司 11252 | 代理人: | 常小溪;王立民 |
| 地址: | 230088 安徽省*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 人機交互 場景 語音 識別 糾錯 方法 裝置 以及 設備 | ||
1.一種基于人機交互場景的語音識別糾錯方法,其特征在于,包括:
獲取相應于本輪交互問詢的用戶答復語音;
對所述用戶答復語音進行識別轉寫,得到若干相關識別文本;
結合所述本輪交互問詢的語義信息以及每個所述相關識別文本的語義信息,編碼得到上下文綜合信息;
根據所述上下文綜合信息解碼得到目標識別文本。
2.根據權利要求1所述的基于人機交互場景的語音識別糾錯方法,其特征在于,獲得所述本輪交互問詢的語義信息的方式包括:
預設若干種交互問詢類型;
分別獲取所述交互問詢類型的第一表征信息以及所述本輪交互問詢的第二表征信息;
融合所述第一表征信息以及所述第二表征信息,得到所述本輪交互問詢的語義信息。
3.根據權利要求2所述的基于人機交互場景的語音識別糾錯方法,其特征在于,所述獲取所述交互問詢類型的第一表征信息包括:
基于上一輪交互后的語義理解結果,確定所述本輪交互問詢的問題內容;
從預設的多種交互問詢類型中選出相應于當前問題內容的若干種特定類型;
將所述特定類型向量化后得到所述第一表征信息。
4.根據權利要求1所述的基于人機交互場景的語音識別糾錯方法,其特征在于,獲得所述相關識別文本的語義信息的方式包括:
獲取針對所述本輪交互問詢的歷史交互信息;
分別獲取所述歷史交互信息的第三表征信息以及所述相關識別文本的第四表征信息;
融合所述第三表征信息以及所述第四表征信息,得到所述相關識別文本的語義信息。
5.根據權利要求4所述的基于人機交互場景的語音識別糾錯方法,其特征在于,所述融合所述第三表征信息以及所述第四表征信息包括:
利用各所述歷史交互信息的每個字向量與各所述相關識別文本的句子向量進行多維注意力計算。
6.根據權利要求1~5任一項所述的基于人機交互場景的語音識別糾錯方法,其特征在于,所述得到若干相關識別文本包括:
按語音識別過程中解碼路徑的得分,得到所述相關識別文本。
7.一種基于人機交互場景的語音識別糾錯裝置,其特征在于,包括:
當前答復語音獲取模塊,用于獲取相應于本輪交互問詢的用戶答復語音;
轉寫中間結果獲取模塊,用于對所述用戶答復語音進行識別轉寫,得到若干相關識別文本;
編碼模塊,用于結合所述本輪交互問詢的語義信息以及每個所述相關識別文本的語義信息,編碼得到上下文綜合信息;
解碼模塊,用于根據所述上下文綜合信息解碼得到目標識別文本。
8.一種電子設備,其特征在于,包括:
一個或多個處理器、存儲器以及一個或多個計算機程序,其中所述一個或多個計算機程序被存儲在所述存儲器中,所述一個或多個計算機程序包括指令,當所述指令被所述電子設備執行時,使得所述電子設備執行權利要求1~6任一項所述的基于人機交互場景的語音識別糾錯方法。
9.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質中存儲有計算機程序,當所述計算機程序在計算機上運行時,使得計算機執行權利要求1~6任一項所述的基于人機交互場景的語音識別糾錯方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科大訊飛股份有限公司,未經科大訊飛股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110236299.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:抱閘電機、減速器及機器人
- 下一篇:一種低溫使用的高強度速凝填縫技術





