[發(fā)明專利]應(yīng)用于電視場(chǎng)景的多模態(tài)交互方法在審

申請(qǐng)?zhí)枺?/td>	201910630133.X	申請(qǐng)日：	2019-07-12
公開（公告）號(hào)：	CN110335603A	公開（公告）日：	2019-10-15
發(fā)明（設(shè)計(jì)）人：	周建波;高嵐;李洋全	申請(qǐng)（專利權(quán)）人：	四川長虹電器股份有限公司
主分類號(hào)：	G10L15/22	分類號(hào)：	G10L15/22;G10L15/18;G10L15/25;G10L15/04;G10L15/30;G10L13/00
代理公司：	成都虹橋?qū)＠聞?wù)所(普通合伙) 51124	代理人：	吳中偉
地址：	621000 四***	國省代碼：	四川;51
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	語音交互語音數(shù)據(jù) 多模態(tài)交互電視場(chǎng)景遠(yuǎn)場(chǎng) 緩存圖像采集設(shè)備圖像處理技術(shù) 有效性判斷云端服務(wù)器播放音量用戶圖像語義理解語音識(shí)別流暢度音箱上傳判定應(yīng)用喚醒采集電視
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明涉及語音交互和圖像處理技術(shù)領(lǐng)域，其公開了一種應(yīng)用于電視場(chǎng)景的多模態(tài)交互方法，解決現(xiàn)有遠(yuǎn)場(chǎng)語音交互方案中存在的每次交互需要先說喚醒詞，并且系統(tǒng)需要對(duì)播放音量進(jìn)行調(diào)節(jié)，影響交互的流暢度和體驗(yàn)感的問題。本發(fā)明在獲取到語音數(shù)據(jù)時(shí)進(jìn)行緩存，同時(shí)通過對(duì)圖像采集設(shè)備采集的用戶圖像進(jìn)行識(shí)別，通過識(shí)別來確定用戶是否有語音交互意圖，若判定用戶當(dāng)前有語音交互意圖才進(jìn)行語音數(shù)據(jù)有效性判斷，將有效的語音數(shù)據(jù)上傳給云端服務(wù)器進(jìn)行語音識(shí)別和語義理解處理。本發(fā)明適用于電視、音箱等設(shè)備的遠(yuǎn)場(chǎng)語音交互。

技術(shù)領(lǐng)域

本發(fā)明涉及語音交互和圖像處理技術(shù)領(lǐng)域，具體涉及一種應(yīng)用于電視場(chǎng)景的多模態(tài)交互方法。

背景技術(shù)

目前，基于深度學(xué)習(xí)的AI技術(shù)推動(dòng)了各行業(yè)智能化的迅速發(fā)展。在電視領(lǐng)域，AI技術(shù)在智能電視中的作用逐步凸顯，其中，遠(yuǎn)場(chǎng)語音交互就是一個(gè)典型應(yīng)用。如何提升用戶的電視場(chǎng)景交互體驗(yàn)，如何為用戶提供更加智能便捷的服務(wù)，一直都是重點(diǎn)研究的方向。另外，AI服務(wù)從云端計(jì)算發(fā)展到邊緣計(jì)算、端側(cè)計(jì)算。利用電視本身的端側(cè)的AI計(jì)算能力進(jìn)行AI技術(shù)開發(fā)，又將會(huì)進(jìn)一步提高用戶使用的實(shí)時(shí)性和安全性。

現(xiàn)有的遠(yuǎn)場(chǎng)語音交互包含幾個(gè)過程：1.通過遠(yuǎn)場(chǎng)拾音設(shè)備-陣列麥克風(fēng)獲取用戶語音，進(jìn)行回聲消除、降噪、去混響等信號(hào)處理；2.判斷用戶是否有說喚醒詞，識(shí)別到喚醒詞后，設(shè)備給出聲音、指示燈或界面的反饋，同時(shí)降低設(shè)備當(dāng)前播放的聲音甚至靜音；3.根據(jù)VAD(語音端點(diǎn)檢測(cè))算法獲取用戶有效的語音指令的音頻數(shù)據(jù)流，進(jìn)行語音自動(dòng)識(shí)別處理，實(shí)現(xiàn)語音到文本的轉(zhuǎn)換；4.將文本進(jìn)行自然語言處理，分析出用戶指令，給出設(shè)備執(zhí)行所需的意圖；5.設(shè)備執(zhí)行意圖。

由于智能電視的拾音設(shè)備中獲取拾音設(shè)備中獲取的語音數(shù)據(jù)，不僅僅包括用戶語音交互數(shù)據(jù)，還包括電視本身發(fā)出的聲音、用戶可能與家人聊天時(shí)的聲音，以及其它電視周圍環(huán)境的聲音。而當(dāng)前的語音自動(dòng)識(shí)別及語義處理都在云端服務(wù)器，如果所有語音數(shù)據(jù)上傳到云端服務(wù)器之前，不設(shè)置限制條件，那么拾音設(shè)備獲取的所有數(shù)據(jù)都將上傳到云端，不僅會(huì)消耗很大的網(wǎng)絡(luò)流量，也給云端的處理帶來巨大的負(fù)擔(dān)；另一方面，如果用戶語音數(shù)據(jù)實(shí)時(shí)上傳，會(huì)給隱私帶來嚴(yán)重挑戰(zhàn)。因此，拾音設(shè)備不能實(shí)時(shí)將獲取的語音數(shù)據(jù)上傳到云端處理，必須要相應(yīng)的觸發(fā)來分辨用戶語音交互數(shù)據(jù)，才能將正確的數(shù)據(jù)進(jìn)行上傳。

對(duì)于現(xiàn)有的遠(yuǎn)場(chǎng)語音交互方案而言，這個(gè)觸發(fā)點(diǎn)就是用戶說出的“喚醒詞”，即，只有用戶說出喚醒詞，系統(tǒng)調(diào)低當(dāng)前播放音量或者靜音處理后，才將此后一定時(shí)間段內(nèi)的語音數(shù)據(jù)上傳給云端服務(wù)器進(jìn)行識(shí)別處理。由于每次交互都要先說喚醒詞，并且系統(tǒng)需要對(duì)播放音量進(jìn)行調(diào)節(jié)，影響了交互的流暢度與體驗(yàn)感。

發(fā)明內(nèi)容

本發(fā)明所要解決的技術(shù)問題是：提出一種應(yīng)用于電視場(chǎng)景的多模態(tài)交互方法，解決現(xiàn)有遠(yuǎn)場(chǎng)語音交互方案中存在的每次交互需要先說喚醒詞，并且系統(tǒng)需要對(duì)播放音量進(jìn)行調(diào)節(jié)，影響交互的流暢度和體驗(yàn)感的問題。

本發(fā)明解決上述技術(shù)問題采用的技術(shù)方案是：

應(yīng)用于電視場(chǎng)景的多模態(tài)交互方法，應(yīng)用于包括語音采集設(shè)備和圖像采集設(shè)備的電視系統(tǒng)中，所述電視系統(tǒng)上運(yùn)行有語音交互應(yīng)用服務(wù)和說話檢測(cè)應(yīng)用服務(wù)，該方法包括以下步驟：

步驟1、語音交互應(yīng)用服務(wù)在獲取語音數(shù)據(jù)時(shí)，對(duì)語音數(shù)據(jù)進(jìn)行緩存，同時(shí)通過調(diào)用說話檢測(cè)應(yīng)用服務(wù)對(duì)采集的圖像進(jìn)行識(shí)別；

步驟2、說話檢測(cè)應(yīng)用服務(wù)根據(jù)對(duì)采集的圖像的識(shí)別來檢測(cè)當(dāng)前用戶是否有語音交互意圖，并將檢測(cè)結(jié)果發(fā)送給語音交互應(yīng)用服務(wù)；

步驟3、若語音交互應(yīng)用服務(wù)接收到當(dāng)前用戶有語音交互意圖的檢測(cè)結(jié)果，則通過VAD算法對(duì)緩存的語音數(shù)據(jù)中是否含有有效語音數(shù)據(jù)進(jìn)行判斷，若含有有效語音數(shù)據(jù)，則將緩存的語音數(shù)據(jù)上傳給云端服務(wù)器；

步驟4、云端服務(wù)器對(duì)上傳的語音數(shù)據(jù)進(jìn)行語音識(shí)別以及自然語言處理，將處理結(jié)果發(fā)送給電視系統(tǒng)的語音交互應(yīng)用服務(wù)；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于四川長虹電器股份有限公司，未經(jīng)四川長虹電器股份有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201910630133.X/2.html，轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

上一篇：一種具有語音識(shí)別功能的河長制信息化系統(tǒng)
下一篇：一種語音呼叫臺(tái)燈系統(tǒng)

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識(shí)別；音頻分析或處理
G10L15-00 語音識(shí)別
G10L15-02 .語音識(shí)別的特征提取；識(shí)別單位的選擇
G10L15-04 .分段或字極限檢測(cè)
G10L15-06 .創(chuàng)建基準(zhǔn)模板；訓(xùn)練語音識(shí)別系統(tǒng)，例如對(duì)說話者聲音特征的適應(yīng)
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】