[發(fā)明專利]一種基于語音檢測的語音交互方法及其裝置有效

申請?zhí)枺?/td>	202011342535.9	申請日：	2020-11-25
公開（公告）號：	CN112562734B	公開（公告）日：	2021-08-27
發(fā)明（設(shè)計）人：	繆純;韓瑞;吳鵬程	申請（專利權(quán)）人：	中檢啟迪（北京）科技有限公司
主分類號：	G10L25/60	分類號：	G10L25/60;G10L25/63;G10L15/22
代理公司：	北京力量專利代理事務(wù)所(特殊普通合伙) 11504	代理人：	徐穎超
地址：	101312 北京市順義區(qū)金航西***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于語音檢測交互方法及其裝置
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明公開了一種基于語音檢測的語音交互方法及其裝置，根據(jù)音頻內(nèi)容的特征信息將待檢測語音拆分為多個不同類別的音頻內(nèi)容，然后分別反饋給用戶，由用戶確認(rèn)其中哪個音頻內(nèi)容為其輸入的信息，這樣可以排除其他用戶或環(huán)境噪聲所產(chǎn)生的音頻內(nèi)容的干擾，提高后續(xù)語音交互的準(zhǔn)確性；并且通過識別用戶確認(rèn)的音頻內(nèi)容并反饋給用戶，由用戶確認(rèn)該音頻內(nèi)容是否完整表達(dá)了用戶的真實意思，從而可以避免識別誤差而導(dǎo)致的交互不暢，進(jìn)一步提高語音交互的準(zhǔn)確性和用戶的體驗感。

技術(shù)領(lǐng)域

本申請涉及語音交互技術(shù)領(lǐng)域，具體涉及一種基于語音檢測的語音交互方法及其裝置。

背景技術(shù)

隨著通信技術(shù)的發(fā)展，智能終端的普及，各種網(wǎng)絡(luò)通訊工具成為大眾溝通的主要工具之一。其中由于語音信息的操作和傳輸?shù)谋憬菪裕蔀楦鞣N網(wǎng)絡(luò)通訊工具的主要傳輸信息。而在使用各種網(wǎng)絡(luò)通訊工具時，還涉及到將語音信息進(jìn)行文本轉(zhuǎn)換的過程，該過程就是語音識別技術(shù)。

語音識別技術(shù)是使得機(jī)器通過識別和理解過程把語音信息轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。在使用深度學(xué)習(xí)的方法進(jìn)行語音識別時，需要及時對當(dāng)前時刻的語音信息進(jìn)行識別來確定語音識別結(jié)果，這就對語音識別的效率和準(zhǔn)確度有了較高的要求。

發(fā)明內(nèi)容

為了解決上述技術(shù)問題，本申請?zhí)岢隽艘环N基于語音檢測的語音交互方法及其裝置，根據(jù)音頻內(nèi)容的特征信息將待檢測語音拆分為多個不同類別的音頻內(nèi)容，然后分別反饋給用戶，由用戶確認(rèn)其中哪個音頻內(nèi)容為其輸入的信息，這樣可以排除其他用戶或環(huán)境噪聲所產(chǎn)生的音頻內(nèi)容的干擾，提高后續(xù)語音交互的準(zhǔn)確性；并且通過識別用戶確認(rèn)的音頻內(nèi)容并反饋給用戶，由用戶確認(rèn)該音頻內(nèi)容是否完整表達(dá)了用戶的真實意思，從而可以避免識別誤差而導(dǎo)致的交互不暢，進(jìn)一步提高語音交互的準(zhǔn)確性和用戶的體驗感。

根據(jù)本申請的一個方面，提供了一種基于語音檢測的語音交互方法，包括：獲取待檢測語音；其中所述待檢測語音包括多種類別的音頻內(nèi)容；根據(jù)不同音頻內(nèi)容的特征信息，將所述待檢測語音拆分為多個不同類別的音頻內(nèi)容；分別反饋所述多個不同類別的音頻內(nèi)容給用戶；獲取所述用戶的第一確認(rèn)信息；所述第一確認(rèn)信息用于確認(rèn)所述多個不同類別的音頻內(nèi)容中對應(yīng)所述用戶的輸入信息的音頻內(nèi)容；識別所述第一確認(rèn)信息對應(yīng)的音頻內(nèi)容，得到識別內(nèi)容；反饋所述識別內(nèi)容給所述用戶；獲取所述用戶的第二確認(rèn)信息；所述第二確認(rèn)信息用于確認(rèn)所述識別內(nèi)容是否為所述用戶的真實意思的表達(dá)；以及當(dāng)所述第二確認(rèn)信息為所述用戶的真實意思的表達(dá)時，根據(jù)所述識別內(nèi)容，確定交互信息。

在一實施例中，所述特征信息包括音調(diào)、音色和音量；所述根據(jù)不同音頻內(nèi)容的特征信息，將所述待檢測語音拆分為多個不同類別的音頻內(nèi)容包括：根據(jù)所述待檢測語音的音調(diào)、音色和音量，將所述待檢測語音拆分為多個音頻內(nèi)容。

在一實施例中，所述分別反饋所述多個不同類別的音頻內(nèi)容給用戶包括：按照預(yù)設(shè)時長，將每個所述音頻內(nèi)容拆分為時間小于或等于所述預(yù)設(shè)時長的音頻段；以及分別反饋每個所述音頻內(nèi)容的至少一個音頻段給用戶。

在一實施例中，在所述分別反饋所述多個不同類別的音頻內(nèi)容給用戶之前，所述語音交互方法還包括：獲取所述用戶的多個屬性標(biāo)簽；所述多個屬性標(biāo)簽表征所述用戶的各個不同維度特征。

在一實施例中，所述獲取所述用戶的多個屬性標(biāo)簽包括：獲取所述用戶的面部圖像，分析所述面部圖像得到所述用戶的多個屬性標(biāo)簽。

在一實施例中，所述屬性標(biāo)簽包括如下維度特征中的任一種或多種的組合：地域、年齡、性別、興趣、情緒。

在一實施例中，所述分別反饋所述多個不同類別的音頻內(nèi)容給用戶包括：根據(jù)所述用戶的多個屬性標(biāo)簽，確定所述多個不同類別的音頻內(nèi)容的反饋順序。

在一實施例中，所述根據(jù)所述用戶的多個屬性標(biāo)簽，確定所述多個不同類別的音頻內(nèi)容的反饋順序包括：計算所述用戶的多個屬性標(biāo)簽與所述不同類別的音頻內(nèi)容的特征信息之間的相似度；以及按照相似度由大至小的順序反饋所述多個不同類別的音頻內(nèi)容。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中檢啟迪（北京）科技有限公司，未經(jīng)中檢啟迪（北京）科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011342535.9/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點擊【登陸】【注冊】