[發(fā)明專(zhuān)利]語(yǔ)音喚醒方法及裝置、處理器、音箱和電視機(jī)在審
| 申請(qǐng)?zhí)枺?/td> | 201811475797.5 | 申請(qǐng)日: | 2018-12-04 |
| 公開(kāi)(公告)號(hào): | CN111354341A | 公開(kāi)(公告)日: | 2020-06-30 |
| 發(fā)明(設(shè)計(jì))人: | 陳夢(mèng)喆;薛少飛;雷鳴 | 申請(qǐng)(專(zhuān)利權(quán))人: | 阿里巴巴集團(tuán)控股有限公司 |
| 主分類(lèi)號(hào): | G10L15/06 | 分類(lèi)號(hào): | G10L15/06;G10L15/16;G10L15/22;H04R1/20 |
| 代理公司: | 北京博浩百睿知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11134 | 代理人: | 褚敏;宋子良 |
| 地址: | 英屬開(kāi)曼群島大開(kāi)*** | 國(guó)省代碼: | 暫無(wú)信息 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語(yǔ)音 喚醒 方法 裝置 處理器 音箱 電視機(jī) | ||
本發(fā)明公開(kāi)了一種語(yǔ)音喚醒方法及裝置、處理器、音箱和電視機(jī)。其中,該方法包括:采用語(yǔ)音數(shù)據(jù)集訓(xùn)練得到聲學(xué)模型,其中,所述聲學(xué)模型包括:第一組成部分和第二組成部分;獲取特征提取后的多路音頻信號(hào);采用所述第一組成部分對(duì)所述多路音頻信號(hào)進(jìn)行信號(hào)前端處理,得到處理結(jié)果;采用所述第二組成部分對(duì)所述處理結(jié)果進(jìn)行識(shí)別,以喚醒當(dāng)前設(shè)備。本發(fā)明解決了相關(guān)技術(shù)中信號(hào)處理模型與喚醒模型分別優(yōu)化訓(xùn)練從而導(dǎo)致兩者目標(biāo)準(zhǔn)則不一致的技術(shù)問(wèn)題。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)領(lǐng)域,具體而言,涉及一種語(yǔ)音喚醒方法及裝置、處理器、音箱和電視機(jī)。
背景技術(shù)
語(yǔ)音喚醒是指用戶(hù)說(shuō)出特定的語(yǔ)音指令時(shí),設(shè)備從休眠狀態(tài)切換到工作狀態(tài),給出指定響應(yīng)。該技術(shù)廣泛地應(yīng)用于各類(lèi)語(yǔ)音控制的產(chǎn)品中,如機(jī)器人、手機(jī)、可穿戴設(shè)備、智能家居、車(chē)載等。由于涉及到的場(chǎng)景常常是遠(yuǎn)場(chǎng)環(huán)境,處理信號(hào)具有信噪比低,有回聲等特點(diǎn),因此語(yǔ)音喚醒的輸入語(yǔ)音常常會(huì)先經(jīng)過(guò)前端信號(hào)處理,以去除噪聲,回聲等不利于后端解析具體語(yǔ)言?xún)?nèi)容的部分。
為了獲得更魯棒的喚醒性能,相關(guān)技術(shù)中對(duì)于語(yǔ)音喚醒的輸入語(yǔ)音常常會(huì)先經(jīng)過(guò)傳統(tǒng)前端信號(hào)處理,比如回聲消除(Acoustic Echo Canceller,簡(jiǎn)稱(chēng)AEC),自動(dòng)增益控制(Automatic Gain Control,簡(jiǎn)稱(chēng)為AGC),波束形成算法(Beam forming algorithm)以及盲源分離等降噪方式,將多通道信號(hào)轉(zhuǎn)換成單通道信號(hào),再提取特征后輸入喚醒模塊,其目的在于獲得更干凈的語(yǔ)音,以降低喚醒模型對(duì)語(yǔ)音的解析難度。
但是,相關(guān)技術(shù)中的信號(hào)處理與語(yǔ)音喚醒的結(jié)合常常有以下幾方面缺點(diǎn):1)信號(hào)處理模式一般為在一定準(zhǔn)則指導(dǎo)下,估計(jì)濾波器最優(yōu)參數(shù),其準(zhǔn)則和優(yōu)化目標(biāo)會(huì)與喚醒模型的目標(biāo)準(zhǔn)則不一致,二者分別優(yōu)化訓(xùn)練,無(wú)法獲得聯(lián)合訓(xùn)練的優(yōu)勢(shì);2)在數(shù)據(jù)不斷的累積過(guò)程中,信號(hào)處理的模式無(wú)法利用大量數(shù)據(jù)帶來(lái)的紅利;3)信號(hào)處理效果與資源量的需求呈正比,若要獲得較好的效果,其計(jì)算量以及時(shí)延甚至?xí)笥趩拘涯P停⑶译S著語(yǔ)音通道數(shù)的增加,處理時(shí)長(zhǎng)呈指數(shù)級(jí)上升。信號(hào)處理和語(yǔ)音喚醒一般在設(shè)備端完成,這對(duì)資源的利用要求嚴(yán)苛,尋求盡可能計(jì)算量小和時(shí)延小的方案;4)場(chǎng)景及硬件的適應(yīng)性弱,當(dāng)使用場(chǎng)景變化、硬件發(fā)生變化時(shí),算法、參數(shù)都需要重新調(diào)整。
針對(duì)相關(guān)技術(shù)中的上述問(wèn)題,目前尚未提出有效的解決方案。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供了一種語(yǔ)音喚醒方法及裝置、處理器、音箱和電視機(jī),以至少解決相關(guān)技術(shù)中信號(hào)處理模型與喚醒模型分別優(yōu)化訓(xùn)練從而導(dǎo)致兩者目標(biāo)準(zhǔn)則不一致的技術(shù)問(wèn)題。
根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種語(yǔ)音喚醒方法,包括:采用語(yǔ)音數(shù)據(jù)集訓(xùn)練得到聲學(xué)模型,其中,所述聲學(xué)模型包括:第一組成部分和第二組成部分;獲取特征提取后的多路音頻信號(hào);采用所述第一組成部分對(duì)所述多路音頻信號(hào)進(jìn)行信號(hào)前端處理,得到處理結(jié)果;采用所述第二組成部分對(duì)所述處理結(jié)果進(jìn)行識(shí)別,以喚醒當(dāng)前設(shè)備。
根據(jù)本發(fā)明實(shí)施例的另一個(gè)方面,提供了一種語(yǔ)音喚醒裝置,包括:訓(xùn)練模塊,用于采用語(yǔ)音數(shù)據(jù)集訓(xùn)練得到聲學(xué)模型,其中,所述聲學(xué)模型包括:第一組成部分和第二組成部分;獲取模塊,用于獲取特征提取后的多路音頻信號(hào);處理模塊,用于采用所述第一組成部分對(duì)所述多路音頻信號(hào)進(jìn)行信號(hào)前端處理,得到處理結(jié)果;識(shí)別模塊,用于采用所述第二組成部分對(duì)所述處理結(jié)果進(jìn)行識(shí)別,以喚醒當(dāng)前設(shè)備。
根據(jù)本發(fā)明實(shí)施例的又一個(gè)方面,一種處理器,所述處理器用于運(yùn)行程序,其中,所述程序運(yùn)行時(shí)執(zhí)行上述的語(yǔ)音喚醒方法。
根據(jù)本發(fā)明實(shí)施例的再一個(gè)方面,提供了一種音箱,包括:采用語(yǔ)音數(shù)據(jù)集訓(xùn)練得到聲學(xué)模型,其中,所述聲學(xué)模型包括:第一組成部分和第二組成部分;獲取特征提取后的多路音頻信號(hào);采用所述第一組成部分對(duì)所述多路音頻信號(hào)進(jìn)行信號(hào)前端處理,得到處理結(jié)果;采用所述第二組成部分對(duì)所述處理結(jié)果進(jìn)行識(shí)別,以喚醒當(dāng)前設(shè)備。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于阿里巴巴集團(tuán)控股有限公司,未經(jīng)阿里巴巴集團(tuán)控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811475797.5/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L15-00 語(yǔ)音識(shí)別
G10L15-02 .語(yǔ)音識(shí)別的特征提取;識(shí)別單位的選擇
G10L15-04 .分段或字極限檢測(cè)
G10L15-06 .創(chuàng)建基準(zhǔn)模板;訓(xùn)練語(yǔ)音識(shí)別系統(tǒng),例如對(duì)說(shuō)話(huà)者聲音特征的適應(yīng)
G10L15-08 .語(yǔ)音分類(lèi)或檢索
G10L15-20 .專(zhuān)門(mén)適用于不利環(huán)境
- 用于語(yǔ)音處理的方法與系統(tǒng)
- 一種語(yǔ)音識(shí)別測(cè)試系統(tǒng)及方法
- 用于語(yǔ)音識(shí)別的方法和裝置
- 一種語(yǔ)音消毒柜的控制方法及語(yǔ)音消毒柜
- 一種語(yǔ)音處理方法及裝置
- 混合語(yǔ)音識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 語(yǔ)音情緒識(shí)別方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種具有語(yǔ)音識(shí)別功能的智能語(yǔ)音終端設(shè)備
- 語(yǔ)音增強(qiáng)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種聲紋鑒定語(yǔ)音重組方法和系統(tǒng)
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線(xiàn)程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 光源裝置、照明裝置、液晶裝置和電子裝置
- 預(yù)測(cè)裝置、編輯裝置、逆預(yù)測(cè)裝置、解碼裝置及運(yùn)算裝置
- 圖像形成裝置、定影裝置、遮光裝置以及保持裝置
- 打印裝置、讀取裝置、復(fù)合裝置以及打印裝置、讀取裝置、復(fù)合裝置的控制方法
- 電子裝置、光盤(pán)裝置、顯示裝置和攝像裝置
- 光源裝置、照明裝置、曝光裝置和裝置制造方法
- 用戶(hù)裝置、裝置對(duì)裝置用戶(hù)裝置、后端裝置及其定位方法
- 遙控裝置、通信裝置、可變裝置及照明裝置
- 透鏡裝置、攝像裝置、處理裝置和相機(jī)裝置
- 抖動(dòng)校正裝置、驅(qū)動(dòng)裝置、成像裝置、和電子裝置





