[發(fā)明專利]應(yīng)用于電視場(chǎng)景的多模態(tài)交互方法在審
| 申請(qǐng)?zhí)枺?/td> | 201910630133.X | 申請(qǐng)日: | 2019-07-12 |
| 公開(公告)號(hào): | CN110335603A | 公開(公告)日: | 2019-10-15 |
| 發(fā)明(設(shè)計(jì))人: | 周建波;高嵐;李洋全 | 申請(qǐng)(專利權(quán))人: | 四川長虹電器股份有限公司 |
| 主分類號(hào): | G10L15/22 | 分類號(hào): | G10L15/22;G10L15/18;G10L15/25;G10L15/04;G10L15/30;G10L13/00 |
| 代理公司: | 成都虹橋?qū)@聞?wù)所(普通合伙) 51124 | 代理人: | 吳中偉 |
| 地址: | 621000 四*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音交互 語音數(shù)據(jù) 多模態(tài)交互 電視場(chǎng)景 遠(yuǎn)場(chǎng) 緩存 圖像采集設(shè)備 圖像處理技術(shù) 有效性判斷 云端服務(wù)器 播放音量 用戶圖像 語義理解 語音識(shí)別 流暢度 音箱 上傳 判定 應(yīng)用 喚醒 采集 電視 | ||
本發(fā)明涉及語音交互和圖像處理技術(shù)領(lǐng)域,其公開了一種應(yīng)用于電視場(chǎng)景的多模態(tài)交互方法,解決現(xiàn)有遠(yuǎn)場(chǎng)語音交互方案中存在的每次交互需要先說喚醒詞,并且系統(tǒng)需要對(duì)播放音量進(jìn)行調(diào)節(jié),影響交互的流暢度和體驗(yàn)感的問題。本發(fā)明在獲取到語音數(shù)據(jù)時(shí)進(jìn)行緩存,同時(shí)通過對(duì)圖像采集設(shè)備采集的用戶圖像進(jìn)行識(shí)別,通過識(shí)別來確定用戶是否有語音交互意圖,若判定用戶當(dāng)前有語音交互意圖才進(jìn)行語音數(shù)據(jù)有效性判斷,將有效的語音數(shù)據(jù)上傳給云端服務(wù)器進(jìn)行語音識(shí)別和語義理解處理。本發(fā)明適用于電視、音箱等設(shè)備的遠(yuǎn)場(chǎng)語音交互。
技術(shù)領(lǐng)域
本發(fā)明涉及語音交互和圖像處理技術(shù)領(lǐng)域,具體涉及一種應(yīng)用于電視場(chǎng)景的多模態(tài)交互方法。
背景技術(shù)
目前,基于深度學(xué)習(xí)的AI技術(shù)推動(dòng)了各行業(yè)智能化的迅速發(fā)展。在電視領(lǐng)域,AI技術(shù)在智能電視中的作用逐步凸顯,其中,遠(yuǎn)場(chǎng)語音交互就是一個(gè)典型應(yīng)用。如何提升用戶的電視場(chǎng)景交互體驗(yàn),如何為用戶提供更加智能便捷的服務(wù),一直都是重點(diǎn)研究的方向。另外,AI服務(wù)從云端計(jì)算發(fā)展到邊緣計(jì)算、端側(cè)計(jì)算。利用電視本身的端側(cè)的AI計(jì)算能力進(jìn)行AI技術(shù)開發(fā),又將會(huì)進(jìn)一步提高用戶使用的實(shí)時(shí)性和安全性。
現(xiàn)有的遠(yuǎn)場(chǎng)語音交互包含幾個(gè)過程:1.通過遠(yuǎn)場(chǎng)拾音設(shè)備-陣列麥克風(fēng)獲取用戶語音,進(jìn)行回聲消除、降噪、去混響等信號(hào)處理;2.判斷用戶是否有說喚醒詞,識(shí)別到喚醒詞后,設(shè)備給出聲音、指示燈或界面的反饋,同時(shí)降低設(shè)備當(dāng)前播放的聲音甚至靜音;3.根據(jù)VAD(語音端點(diǎn)檢測(cè))算法獲取用戶有效的語音指令的音頻數(shù)據(jù)流,進(jìn)行語音自動(dòng)識(shí)別處理,實(shí)現(xiàn)語音到文本的轉(zhuǎn)換;4.將文本進(jìn)行自然語言處理,分析出用戶指令,給出設(shè)備執(zhí)行所需的意圖;5.設(shè)備執(zhí)行意圖。
由于智能電視的拾音設(shè)備中獲取拾音設(shè)備中獲取的語音數(shù)據(jù),不僅僅包括用戶語音交互數(shù)據(jù),還包括電視本身發(fā)出的聲音、用戶可能與家人聊天時(shí)的聲音,以及其它電視周圍環(huán)境的聲音。而當(dāng)前的語音自動(dòng)識(shí)別及語義處理都在云端服務(wù)器,如果所有語音數(shù)據(jù)上傳到云端服務(wù)器之前,不設(shè)置限制條件,那么拾音設(shè)備獲取的所有數(shù)據(jù)都將上傳到云端,不僅會(huì)消耗很大的網(wǎng)絡(luò)流量,也給云端的處理帶來巨大的負(fù)擔(dān);另一方面,如果用戶語音數(shù)據(jù)實(shí)時(shí)上傳,會(huì)給隱私帶來嚴(yán)重挑戰(zhàn)。因此,拾音設(shè)備不能實(shí)時(shí)將獲取的語音數(shù)據(jù)上傳到云端處理,必須要相應(yīng)的觸發(fā)來分辨用戶語音交互數(shù)據(jù),才能將正確的數(shù)據(jù)進(jìn)行上傳。
對(duì)于現(xiàn)有的遠(yuǎn)場(chǎng)語音交互方案而言,這個(gè)觸發(fā)點(diǎn)就是用戶說出的“喚醒詞”,即,只有用戶說出喚醒詞,系統(tǒng)調(diào)低當(dāng)前播放音量或者靜音處理后,才將此后一定時(shí)間段內(nèi)的語音數(shù)據(jù)上傳給云端服務(wù)器進(jìn)行識(shí)別處理。由于每次交互都要先說喚醒詞,并且系統(tǒng)需要對(duì)播放音量進(jìn)行調(diào)節(jié),影響了交互的流暢度與體驗(yàn)感。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是:提出一種應(yīng)用于電視場(chǎng)景的多模態(tài)交互方法,解決現(xiàn)有遠(yuǎn)場(chǎng)語音交互方案中存在的每次交互需要先說喚醒詞,并且系統(tǒng)需要對(duì)播放音量進(jìn)行調(diào)節(jié),影響交互的流暢度和體驗(yàn)感的問題。
本發(fā)明解決上述技術(shù)問題采用的技術(shù)方案是:
應(yīng)用于電視場(chǎng)景的多模態(tài)交互方法,應(yīng)用于包括語音采集設(shè)備和圖像采集設(shè)備的電視系統(tǒng)中,所述電視系統(tǒng)上運(yùn)行有語音交互應(yīng)用服務(wù)和說話檢測(cè)應(yīng)用服務(wù),該方法包括以下步驟:
步驟1、語音交互應(yīng)用服務(wù)在獲取語音數(shù)據(jù)時(shí),對(duì)語音數(shù)據(jù)進(jìn)行緩存,同時(shí)通過調(diào)用說話檢測(cè)應(yīng)用服務(wù)對(duì)采集的圖像進(jìn)行識(shí)別;
步驟2、說話檢測(cè)應(yīng)用服務(wù)根據(jù)對(duì)采集的圖像的識(shí)別來檢測(cè)當(dāng)前用戶是否有語音交互意圖,并將檢測(cè)結(jié)果發(fā)送給語音交互應(yīng)用服務(wù);
步驟3、若語音交互應(yīng)用服務(wù)接收到當(dāng)前用戶有語音交互意圖的檢測(cè)結(jié)果,則通過VAD算法對(duì)緩存的語音數(shù)據(jù)中是否含有有效語音數(shù)據(jù)進(jìn)行判斷,若含有有效語音數(shù)據(jù),則將緩存的語音數(shù)據(jù)上傳給云端服務(wù)器;
步驟4、云端服務(wù)器對(duì)上傳的語音數(shù)據(jù)進(jìn)行語音識(shí)別以及自然語言處理,將處理結(jié)果發(fā)送給電視系統(tǒng)的語音交互應(yīng)用服務(wù);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于四川長虹電器股份有限公司,未經(jīng)四川長虹電器股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910630133.X/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 導(dǎo)航系統(tǒng)
- 一種語音檢測(cè)方法和系統(tǒng)
- 語音數(shù)據(jù)庫創(chuàng)建方法、聲紋注冊(cè)方法、裝置、設(shè)備及介質(zhì)
- 即時(shí)聊天中語音數(shù)據(jù)的摘要生成方法、服務(wù)器及系統(tǒng)
- 一種語音智能識(shí)別設(shè)備及語音智能識(shí)別方法
- 語音數(shù)據(jù)的獲取方法和系統(tǒng)
- 一種語音數(shù)據(jù)處理方法及裝置
- 語音數(shù)據(jù)處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種語音數(shù)據(jù)主題識(shí)別的方法及裝置
- 語音喚醒方法、裝置、系統(tǒng)、設(shè)備和存儲(chǔ)介質(zhì)
- 應(yīng)用于視頻直播平臺(tái)的虛擬機(jī)器人多模態(tài)交互方法和系統(tǒng)
- 基于多模態(tài)智能機(jī)器人的交互身份鑒別與跟蹤方法及系統(tǒng)
- 基于虛擬人的頭部交互方法及系統(tǒng)
- 基于虛擬人的手勢(shì)交互方法及系統(tǒng)
- 基于虛擬人的視覺交互方法及系統(tǒng)
- 一種多模態(tài)交互的方法
- 多模態(tài)響應(yīng)
- 基于多模態(tài)客戶端設(shè)備的模態(tài)的動(dòng)態(tài)列表構(gòu)成
- 智能設(shè)備的交互方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種多模態(tài)信息處理及交互系統(tǒng)
- 助聽器、信號(hào)處理方法和程序
- 電視場(chǎng)景切換的方法及電視
- 用于電視機(jī)上電視欄目收視率的統(tǒng)計(jì)系統(tǒng)及方法
- 基于電視場(chǎng)景及語音助手的語音交互輔助方法及系統(tǒng)
- 基于電視場(chǎng)景及語音助手的語音切換方法及系統(tǒng)
- 基于電視場(chǎng)景元素及語音助手的語音交互輔助方法及系統(tǒng)
- 基于電視場(chǎng)景狀態(tài)及語音助手的語音輔助方法及系統(tǒng)
- 一種智能電視場(chǎng)景色彩自動(dòng)調(diào)節(jié)方法及系統(tǒng)
- 基于VR的電視遠(yuǎn)程同看方法及系統(tǒng)
- 與平面電視兼容的立體電視系統(tǒng)





