[發(fā)明專利]語音輸出方法、裝置、存儲介質(zhì)和電子設(shè)備在審

申請?zhí)枺?/td>	202010761629.3	申請日：	2020-07-31
公開（公告）號：	CN111951787A	公開（公告）日：	2020-11-17
發(fā)明（設(shè)計）人：	胡可鑫;魏晨;雷宗;秦斌;王剛	申請（專利權(quán)）人：	北京小米松果電子有限公司
主分類號：	G10L15/06	分類號：	G10L15/06;G10L15/22;G06F3/01
代理公司：	北京英創(chuàng)嘉友知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11447	代理人：	賀曉蕾
地址：	100085 北京市***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	語音輸出方法裝置存儲介質(zhì) 電子設(shè)備
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種語音輸出方法，其特征在于，應(yīng)用于電子設(shè)備，所述電子設(shè)備中設(shè)置有語音助手系統(tǒng)，所述方法包括：

通過圖像采集單元監(jiān)測目標(biāo)對象的動作行為，以獲取包含所述動作行為的影像信息；

根據(jù)預(yù)先訓(xùn)練后的多模態(tài)識別模型和所述影像信息確定所述動作行為發(fā)生的目標(biāo)場景和所述動作行為對應(yīng)的目標(biāo)事件；

在確定所述目標(biāo)場景和所述目標(biāo)事件后，控制所述語音助手系統(tǒng)開啟；

根據(jù)所述目標(biāo)場景和所述目標(biāo)事件從所述語音助手系統(tǒng)的語音庫中確定目標(biāo)語音；

輸出所述目標(biāo)語音，所述目標(biāo)語音對應(yīng)的語音文本為針對所述動作行為的反饋內(nèi)容文本。

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述影像信息包括預(yù)設(shè)時長的視頻，所述多模態(tài)識別模型包括：場景識別模型和事件識別模型，所述根據(jù)預(yù)先訓(xùn)練后的多模態(tài)識別模型和所述影像信息確定所述動作行為發(fā)生的目標(biāo)場景和所述動作行為對應(yīng)的目標(biāo)事件，包括：

從所述影像信息中獲取第一圖像和多個第二圖像，所述第一圖像為所述動作行為發(fā)生的背景圖像，所述第二圖像為用于表征所述動作行為的人像；

將所述第一圖像作為所述場景識別模型的輸入，以獲取所述場景識別模型輸出的用于表征所述目標(biāo)場景的目標(biāo)場景標(biāo)簽；

將所述多個第二圖像作為所述事件識別模型的輸入，以獲取所述事件識別模型輸出用于表征所述目標(biāo)事件的目標(biāo)事件標(biāo)簽。

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述從所述影像信息中獲取第一圖像和多個第二圖像，包括：

獲取所述影像信息中的每一幀的視頻圖像；

通過預(yù)設(shè)的圖像識別算法將每個所述視頻圖像分割為非人像部分和人像部分；

通過預(yù)設(shè)的圖像拼接算法對所述影像信息中的多個所述非人像部分進行拼接，以獲取所述第一圖像；

將所述影像信息中的多個所述人像部分作為所述多個第二圖像。

4.根據(jù)權(quán)利要求2所述的方法，其特征在于，在所述通過信息采集設(shè)備監(jiān)測目標(biāo)對象的動作行為，以獲取包含所述動作行為的影像信息之前，所述方法還包括：

分別通過第一訓(xùn)練數(shù)據(jù)和第二訓(xùn)練數(shù)據(jù)對預(yù)設(shè)分類模型進行訓(xùn)練，以獲取所述多模態(tài)識別模型，所述第一訓(xùn)練數(shù)據(jù)包括多個背景圖像以及每個背景圖像對應(yīng)的場景標(biāo)簽，所述第二訓(xùn)練數(shù)據(jù)包括用于表征不同動作行為的多組人像以及每組人像圖像對應(yīng)的事件標(biāo)簽。

5.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述語音庫對應(yīng)有用于表征場景標(biāo)簽、事件標(biāo)簽和語音標(biāo)簽三者之間的關(guān)聯(lián)關(guān)系的標(biāo)簽關(guān)聯(lián)表，所述根據(jù)所述目標(biāo)場景和所述目標(biāo)事件從所述語音助手系統(tǒng)的語音庫中確定目標(biāo)語音，包括：

在所述語音助手系統(tǒng)開啟后，根據(jù)所述目標(biāo)場景標(biāo)簽和所述目標(biāo)時間標(biāo)簽，從所述標(biāo)簽關(guān)聯(lián)表中確定目標(biāo)語音標(biāo)簽；

獲取所述目標(biāo)語音標(biāo)簽對應(yīng)的語音作為所述目標(biāo)語音。

6.一種語音輸出裝置，其特征在于，應(yīng)用于電子設(shè)備，所述電子設(shè)備中設(shè)置有語音助手系統(tǒng)，所述裝置包括：

行為監(jiān)測模塊，被配置為通過圖像采集單元監(jiān)測目標(biāo)對象的動作行為，以獲取包含所述動作行為的影像信息；

行為識別模塊，被配置為根據(jù)預(yù)先訓(xùn)練后的多模態(tài)識別模型和所述影像信息確定所述動作行為發(fā)生的目標(biāo)場景和所述動作行為對應(yīng)的目標(biāo)事件；

系統(tǒng)開啟模塊，被配置為在確定所述目標(biāo)場景和所述目標(biāo)事件后，控制所述語音助手系統(tǒng)開啟；

語音確定模塊，被配置為根據(jù)所述目標(biāo)場景和所述目標(biāo)事件從所述語音助手系統(tǒng)的語音庫中確定目標(biāo)語音；

語音輸出模塊，被配置為輸出所述目標(biāo)語音，所述目標(biāo)語音對應(yīng)的語音文本為針對所述動作行為的反饋內(nèi)容文本。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京小米松果電子有限公司，未經(jīng)北京小米松果電子有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010761629.3/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種醫(yī)用輸液泵防護罩
下一篇：直噴汽油機發(fā)動機起動控制方法

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創(chuàng)建基準(zhǔn)模板；訓(xùn)練語音識別系統(tǒng)，例如對說話者聲音特征的適應(yīng)
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】