[發(fā)明專利]一種基于語音檢測的語音交互方法及其裝置有效
| 申請?zhí)枺?/td> | 202011342535.9 | 申請日: | 2020-11-25 |
| 公開(公告)號: | CN112562734B | 公開(公告)日: | 2021-08-27 |
| 發(fā)明(設(shè)計)人: | 繆純;韓瑞;吳鵬程 | 申請(專利權(quán))人: | 中檢啟迪(北京)科技有限公司 |
| 主分類號: | G10L25/60 | 分類號: | G10L25/60;G10L25/63;G10L15/22 |
| 代理公司: | 北京力量專利代理事務(wù)所(特殊普通合伙) 11504 | 代理人: | 徐穎超 |
| 地址: | 101312 北京市順義區(qū)金航西*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 語音 檢測 交互 方法 及其 裝置 | ||
本發(fā)明公開了一種基于語音檢測的語音交互方法及其裝置,根據(jù)音頻內(nèi)容的特征信息將待檢測語音拆分為多個不同類別的音頻內(nèi)容,然后分別反饋給用戶,由用戶確認(rèn)其中哪個音頻內(nèi)容為其輸入的信息,這樣可以排除其他用戶或環(huán)境噪聲所產(chǎn)生的音頻內(nèi)容的干擾,提高后續(xù)語音交互的準(zhǔn)確性;并且通過識別用戶確認(rèn)的音頻內(nèi)容并反饋給用戶,由用戶確認(rèn)該音頻內(nèi)容是否完整表達(dá)了用戶的真實意思,從而可以避免識別誤差而導(dǎo)致的交互不暢,進(jìn)一步提高語音交互的準(zhǔn)確性和用戶的體驗感。
技術(shù)領(lǐng)域
本申請涉及語音交互技術(shù)領(lǐng)域,具體涉及一種基于語音檢測的語音交互方法及其裝置。
背景技術(shù)
隨著通信技術(shù)的發(fā)展,智能終端的普及,各種網(wǎng)絡(luò)通訊工具成為大眾溝通的主要工具之一。其中由于語音信息的操作和傳輸?shù)谋憬菪裕蔀楦鞣N網(wǎng)絡(luò)通訊工具的主要傳輸信息。而在使用各種網(wǎng)絡(luò)通訊工具時,還涉及到將語音信息進(jìn)行文本轉(zhuǎn)換的過程,該過程就是語音識別技術(shù)。
語音識別技術(shù)是使得機(jī)器通過識別和理解過程把語音信息轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。在使用深度學(xué)習(xí)的方法進(jìn)行語音識別時,需要及時對當(dāng)前時刻的語音信息進(jìn)行識別來確定語音識別結(jié)果,這就對語音識別的效率和準(zhǔn)確度有了較高的要求。
發(fā)明內(nèi)容
為了解決上述技術(shù)問題,本申請?zhí)岢隽艘环N基于語音檢測的語音交互方法及其裝置,根據(jù)音頻內(nèi)容的特征信息將待檢測語音拆分為多個不同類別的音頻內(nèi)容,然后分別反饋給用戶,由用戶確認(rèn)其中哪個音頻內(nèi)容為其輸入的信息,這樣可以排除其他用戶或環(huán)境噪聲所產(chǎn)生的音頻內(nèi)容的干擾,提高后續(xù)語音交互的準(zhǔn)確性;并且通過識別用戶確認(rèn)的音頻內(nèi)容并反饋給用戶,由用戶確認(rèn)該音頻內(nèi)容是否完整表達(dá)了用戶的真實意思,從而可以避免識別誤差而導(dǎo)致的交互不暢,進(jìn)一步提高語音交互的準(zhǔn)確性和用戶的體驗感。
根據(jù)本申請的一個方面,提供了一種基于語音檢測的語音交互方法,包括:獲取待檢測語音;其中所述待檢測語音包括多種類別的音頻內(nèi)容;根據(jù)不同音頻內(nèi)容的特征信息,將所述待檢測語音拆分為多個不同類別的音頻內(nèi)容;分別反饋所述多個不同類別的音頻內(nèi)容給用戶;獲取所述用戶的第一確認(rèn)信息;所述第一確認(rèn)信息用于確認(rèn)所述多個不同類別的音頻內(nèi)容中對應(yīng)所述用戶的輸入信息的音頻內(nèi)容;識別所述第一確認(rèn)信息對應(yīng)的音頻內(nèi)容,得到識別內(nèi)容;反饋所述識別內(nèi)容給所述用戶;獲取所述用戶的第二確認(rèn)信息;所述第二確認(rèn)信息用于確認(rèn)所述識別內(nèi)容是否為所述用戶的真實意思的表達(dá);以及當(dāng)所述第二確認(rèn)信息為所述用戶的真實意思的表達(dá)時,根據(jù)所述識別內(nèi)容,確定交互信息。
在一實施例中,所述特征信息包括音調(diào)、音色和音量;所述根據(jù)不同音頻內(nèi)容的特征信息,將所述待檢測語音拆分為多個不同類別的音頻內(nèi)容包括:根據(jù)所述待檢測語音的音調(diào)、音色和音量,將所述待檢測語音拆分為多個音頻內(nèi)容。
在一實施例中,所述分別反饋所述多個不同類別的音頻內(nèi)容給用戶包括:按照預(yù)設(shè)時長,將每個所述音頻內(nèi)容拆分為時間小于或等于所述預(yù)設(shè)時長的音頻段;以及分別反饋每個所述音頻內(nèi)容的至少一個音頻段給用戶。
在一實施例中,在所述分別反饋所述多個不同類別的音頻內(nèi)容給用戶之前,所述語音交互方法還包括:獲取所述用戶的多個屬性標(biāo)簽;所述多個屬性標(biāo)簽表征所述用戶的各個不同維度特征。
在一實施例中,所述獲取所述用戶的多個屬性標(biāo)簽包括:獲取所述用戶的面部圖像,分析所述面部圖像得到所述用戶的多個屬性標(biāo)簽。
在一實施例中,所述屬性標(biāo)簽包括如下維度特征中的任一種或多種的組合:地域、年齡、性別、興趣、情緒。
在一實施例中,所述分別反饋所述多個不同類別的音頻內(nèi)容給用戶包括:根據(jù)所述用戶的多個屬性標(biāo)簽,確定所述多個不同類別的音頻內(nèi)容的反饋順序。
在一實施例中,所述根據(jù)所述用戶的多個屬性標(biāo)簽,確定所述多個不同類別的音頻內(nèi)容的反饋順序包括:計算所述用戶的多個屬性標(biāo)簽與所述不同類別的音頻內(nèi)容的特征信息之間的相似度;以及按照相似度由大至小的順序反饋所述多個不同類別的音頻內(nèi)容。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中檢啟迪(北京)科技有限公司,未經(jīng)中檢啟迪(北京)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011342535.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





