[發明專利]一種基于多模態交互的分布式物聯網設備協同方法及其系統在審
| 申請號: | 201910988977.1 | 申請日: | 2019-10-17 |
| 公開(公告)號: | CN110718227A | 公開(公告)日: | 2020-01-21 |
| 發明(設計)人: | 鄭敏;鄭煒喬 | 申請(專利權)人: | 深圳市華創技術有限公司 |
| 主分類號: | G10L15/30 | 分類號: | G10L15/30;G10L15/22;G10L15/25;G10L15/34;H04L29/08 |
| 代理公司: | 11562 北京東方盛凡知識產權代理事務所(普通合伙) | 代理人: | 張雪 |
| 地址: | 518108 廣東省深圳市寶安區石巖街道*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 子設備 物聯網設備 喚醒 語音 協同 實時采集 物聯網 響應 仲裁 人臉檢測結果 用戶語音命令 多模態交互 攝像頭 喚醒信息 繼續監聽 控制命令 人臉檢測 人臉圖像 實時處理 網絡通信 用戶喚醒 語音回復 語音命令 語音信號 麥克風 多模態 準確率 上報 | ||
本發明公開了一種基于多模態交互的分布式物聯網設備協同方法及其系統,由分布式物聯網各個子設備分別通過麥克風實時采集語音信號做語音喚醒判斷,在語音喚醒的設備上啟動攝像頭實時采集人臉圖像做人臉檢測,并通過網絡通信發送到交互中控,交互中控根據各子設備上報的語音喚醒和人臉檢測結果進行仲裁和協同,確定真正響應用戶喚醒的設備并繼續監聽語音命令,同時清除其他子設備的喚醒信息,并對該用戶語音命令進行語音實時處理后下達相對應的控制命令和語音回復內容給到該喚醒響應的物聯網子設備,本發明通過分布式物聯網設備和交互中控根據多模態結果進行仲裁和協同,提高了分布式物聯網設備協同交互和響應的準確率。
技術領域
本發明涉及人工智能技術領域,具體為一種基于多模態交互的分布式物聯網設備協同方法及其系統。
背景技術
隨著人工智能領域技術的不斷發展,語音識別和人臉檢測的準確率不斷得到提升,使我們日常生活中出現了很多智能語音設備。智能語音設備中內置麥克風或麥克風陣列,可以實現讓用戶與智能設備進行近距離或具有一定距離的遠場交互,但超過該距離范圍,語音交互準確率會下降或甚至無法實現?,F在很多帶語音交互的智能設備分布在我們的家庭環境中,如智能語音音箱放在客廳、智能臺燈放在臥室等,設備間呈分布式放置,隨著物聯網的快速發展,多種語音智能設備實現多設備互聯是一個必然的技術趨勢和智慧家庭的生活需求,在該場景下需要一種分布式物聯網設備協同交互的方法。現有技術中,分布式的物聯網設備使用同一個喚醒詞,當用戶語音喚醒后,所有設備都響應了,無法判斷應該由哪個設備響應用戶的請求,嚴重影響了用戶的使用體驗。
發明內容
本發明的目的在于提供一種基于多模態交互的分布式物聯網設備協同方法及其系統,能夠降低網絡延遲,提高響應速度,解決多設備同步喚醒的凌亂結果,而且多模態交互提高了分布式物聯網設備的響應準確率和穩定性,有效解決家庭場景中多個分布式物聯網語音設備互聯、協同工作的問題,提高了物聯網環境下的用戶體驗,以解決上述背景技術中提出的問題。
為實現上述目的,本發明提供如下技術方案:
一種基于多模態交互的分布式物聯網設備協同方法,包括以下步驟:
S1:分布式物聯網設備每個子設備本地實時采集用戶的語音,做語音喚醒判斷;
S2:每個語音喚醒命中的子設備啟動攝像頭獲取當前場景的圖片,進行實時人臉檢測,并計算人臉檢測的結果和置信度;
S3:在每個子設備上當判斷當前場景中存在人臉時,立即向交互中控傳輸該子設備上的語音喚醒結果和人臉檢測結果,該結果包括但不限于語音喚醒和人臉喚醒的置信度;若當判斷當前場景中不存在人臉時,則清除設備自身的語音喚醒結果并不向交互中控上報語音喚醒與人臉檢測結果;
S4:交互中控根據接收到的各個子設備的語音喚醒結果和人臉檢測結果,將最大語音喚醒得分和人臉檢測置信度結果對應的子設備確定為響應用戶喚醒的子設備,并通知該子設備進行響應提示,繼續拾取用戶語音命令,并持續將該子設備的用戶語音命令向語音云端服務器發起語音處理請求,同時清除其他分布式子設備的喚醒信息;
S5:語音云端服務器實時執行語音識別、語義理解、對話管理和語音合成操作處理用戶語音命令,并將響應結果返回。
更進一步地,S1中,分布式物聯網設備表征多個智能終端,每個智能終端都有其麥克風陣列,包括但不限于線性2麥、線性4麥、線性6麥、環形4麥或非規則麥克風陣列。
更進一步地,S2中,人臉檢測方法包括圖片的預處理操作和基于MTCNN的人臉檢測算法兩個步驟,MTCNN在網絡結構上由3個輕量級的CNN組成,分別是P-Net、R-Net和O-Net,對輸入的預處理后的圖片,先后經過這3個網絡的處理,最終輸出人臉檢測和關鍵點檢測的結果。
更進一步地,S2中,實時人臉檢測功能采用基于多任務級聯卷積神經網絡-MTCNN的人臉檢測算法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市華創技術有限公司,未經深圳市華創技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910988977.1/2.html,轉載請聲明來源鉆瓜專利網。





