[發(fā)明專(zhuān)利]語(yǔ)音激活狀態(tài)檢測(cè)方法和裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202010885673.5 | 申請(qǐng)日: | 2020-08-28 |
| 公開(kāi)(公告)號(hào): | CN111899723A | 公開(kāi)(公告)日: | 2020-11-06 |
| 發(fā)明(設(shè)計(jì))人: | 王子揚(yáng);宮一塵 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京地平線(xiàn)機(jī)器人技術(shù)研發(fā)有限公司 |
| 主分類(lèi)號(hào): | G10L15/00 | 分類(lèi)號(hào): | G10L15/00;G10L15/02;G10L15/08;G10L15/22 |
| 代理公司: | 北京布瑞知識(shí)產(chǎn)權(quán)代理有限公司 11505 | 代理人: | 李浩 |
| 地址: | 100080 北京*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語(yǔ)音 激活 狀態(tài) 檢測(cè) 方法 裝置 | ||
本發(fā)明實(shí)施例提供了一種語(yǔ)音激活狀態(tài)檢測(cè)方法和裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和電子設(shè)備,解決了現(xiàn)有語(yǔ)音激活狀態(tài)檢測(cè)方法的精度差的問(wèn)題。該語(yǔ)音激活狀態(tài)檢測(cè)方法包括:基于當(dāng)前圖像幀的信息以及當(dāng)前圖像幀之前預(yù)設(shè)幀數(shù)的歷史圖像幀的信息,得到圖像特征序列;基于當(dāng)前音頻幀的信息以及當(dāng)前音頻幀之前的與所述預(yù)設(shè)幀數(shù)同步對(duì)應(yīng)的預(yù)設(shè)時(shí)段的歷史音頻幀的信息,得到音頻特征序列;以及基于所述圖像特征序列和所述音頻特征序列,獲取語(yǔ)音激活狀態(tài)檢測(cè)結(jié)果。
技術(shù)領(lǐng)域
本發(fā)明涉及語(yǔ)音技術(shù)領(lǐng)域,具體涉及一種語(yǔ)音激活狀態(tài)檢測(cè)方法和裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和電子設(shè)備。
背景技術(shù)
隨著人工智能技術(shù)的不斷發(fā)展,智能語(yǔ)音交互技術(shù)被應(yīng)用在了越來(lái)越多的應(yīng)用場(chǎng)景中,并發(fā)揮了重要作用。在實(shí)際的人機(jī)交互場(chǎng)景中,機(jī)器所采集到的音頻文件并非僅僅包括用戶(hù)發(fā)出的語(yǔ)音內(nèi)容,還可能包括了沒(méi)有實(shí)際語(yǔ)音內(nèi)容的段落。因此,為了提高人機(jī)之間智能語(yǔ)音交互的準(zhǔn)確率和效率,就有必要從采集到的音頻文件中檢測(cè)出對(duì)應(yīng)語(yǔ)音激活狀態(tài)的音頻段落作為語(yǔ)音段落,并僅利用語(yǔ)音段落作為樣本進(jìn)行智能語(yǔ)音交互模型的訓(xùn)練,或僅利用語(yǔ)音段落進(jìn)行語(yǔ)義分析。
現(xiàn)有的語(yǔ)音激活狀態(tài)檢測(cè)方法是依賴(lài)音頻文件進(jìn)行的,通過(guò)提取音頻文件的特征信息,并基于指定的或自適應(yīng)的特征閾值判斷音頻文件中的哪些音頻段落是語(yǔ)音激活狀態(tài),對(duì)應(yīng)語(yǔ)音激活狀態(tài)的音頻段落則為語(yǔ)音段落。然而當(dāng)音頻文件采集自高噪聲的復(fù)雜場(chǎng)景時(shí),音頻文件本身的信噪比較低,采用現(xiàn)有的語(yǔ)音激活狀態(tài)檢測(cè)方法難以區(qū)分噪音內(nèi)容和語(yǔ)音內(nèi)容,從而導(dǎo)致對(duì)于語(yǔ)音激活狀態(tài)的檢測(cè)精度較差。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實(shí)施例提供了一種語(yǔ)音激活狀態(tài)檢測(cè)方法和裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和電子設(shè)備,解決了現(xiàn)有語(yǔ)音激活狀態(tài)檢測(cè)方法的精度差的問(wèn)題。
根據(jù)本申請(qǐng)的一方面,本申請(qǐng)一實(shí)施例提供的一種語(yǔ)音激活狀態(tài)檢測(cè)方法包括:基于當(dāng)前圖像幀的信息以及當(dāng)前圖像幀之前預(yù)設(shè)幀數(shù)的歷史圖像幀的信息,得到圖像特征序列;基于當(dāng)前音頻幀的信息以及當(dāng)前音頻幀之前的與所述預(yù)設(shè)幀數(shù)同步對(duì)應(yīng)的預(yù)設(shè)時(shí)段的歷史音頻幀的信息,得到音頻特征序列;以及基于所述圖像特征序列和所述音頻特征序列,獲取語(yǔ)音激活狀態(tài)檢測(cè)結(jié)果。
根據(jù)本申請(qǐng)的另一方面,本申請(qǐng)一實(shí)施例提供的一種語(yǔ)音激活狀態(tài)檢測(cè)裝置包括:圖像特征序列獲取模塊,配置為基于當(dāng)前圖像幀的信息以及當(dāng)前圖像幀之前預(yù)設(shè)幀數(shù)的歷史圖像幀的信息,得到圖像特征序列;音頻特征序列獲取模塊,配置為基于當(dāng)前音頻幀的信息以及當(dāng)前音頻幀之前的與所述預(yù)設(shè)幀數(shù)同步對(duì)應(yīng)的預(yù)設(shè)時(shí)段的歷史音頻幀的信息,得到音頻特征序列音頻幀;以及檢測(cè)模塊,配置為基于所述圖像特征序列和所述音頻特征序列,獲取語(yǔ)音激活狀態(tài)檢測(cè)結(jié)果。
根據(jù)本申請(qǐng)的另一方面,本申請(qǐng)一實(shí)施例提供的一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序用于執(zhí)行如前任一所述的語(yǔ)音激活狀態(tài)檢測(cè)方法。
根據(jù)本申請(qǐng)的另一方面,本申請(qǐng)一實(shí)施例提供的一種電子設(shè)備,包括:處理器;用于存儲(chǔ)所述處理器可執(zhí)行指令的存儲(chǔ)器;所述處理器,用于執(zhí)行如前任一所述的語(yǔ)音激活狀態(tài)檢測(cè)方法。
本發(fā)明實(shí)施例提供的一種語(yǔ)音激活狀態(tài)檢測(cè)方法和裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)和電子設(shè)備,除了要基于音頻文件的預(yù)設(shè)時(shí)段的音頻幀的信息得到音頻特征序列外,還要基于與預(yù)設(shè)時(shí)段對(duì)應(yīng)的預(yù)設(shè)幀數(shù)的圖像幀的信息獲得圖像特征序列,并綜合利用音頻特征序列和音頻特征序列實(shí)現(xiàn)語(yǔ)音激活狀態(tài)檢測(cè)。這樣即使音頻文件本身采集于高噪聲的復(fù)雜場(chǎng)景,由于圖像幀的信息內(nèi)容是并不會(huì)因?yàn)樵肼暤拇嬖诙a(chǎn)生額外變化的,圖像幀的信息內(nèi)容包括了用戶(hù)在圖像層面上呈現(xiàn)出的與說(shuō)話(huà)狀態(tài)相關(guān)的動(dòng)作影像,因此通過(guò)參考圖像特征序列可排除掉僅對(duì)應(yīng)噪音的非語(yǔ)音段落,避免了現(xiàn)有語(yǔ)音激活狀態(tài)檢測(cè)方式僅依賴(lài)音頻文件進(jìn)行語(yǔ)音激活狀態(tài)檢測(cè)的局限性,從而顯著提高了對(duì)于語(yǔ)音段落的檢測(cè)精度。
附圖說(shuō)明
圖1所示為本申請(qǐng)一實(shí)施例提供的一種語(yǔ)音激活狀態(tài)檢測(cè)方法的流程示意圖。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京地平線(xiàn)機(jī)器人技術(shù)研發(fā)有限公司,未經(jīng)北京地平線(xiàn)機(jī)器人技術(shù)研發(fā)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010885673.5/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L15-00 語(yǔ)音識(shí)別
G10L15-02 .語(yǔ)音識(shí)別的特征提取;識(shí)別單位的選擇
G10L15-04 .分段或字極限檢測(cè)
G10L15-06 .創(chuàng)建基準(zhǔn)模板;訓(xùn)練語(yǔ)音識(shí)別系統(tǒng),例如對(duì)說(shuō)話(huà)者聲音特征的適應(yīng)
G10L15-08 .語(yǔ)音分類(lèi)或檢索
G10L15-20 .專(zhuān)門(mén)適用于不利環(huán)境
- 用于語(yǔ)音處理的方法與系統(tǒng)
- 一種語(yǔ)音識(shí)別測(cè)試系統(tǒng)及方法
- 用于語(yǔ)音識(shí)別的方法和裝置
- 一種語(yǔ)音消毒柜的控制方法及語(yǔ)音消毒柜
- 一種語(yǔ)音處理方法及裝置
- 混合語(yǔ)音識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 語(yǔ)音情緒識(shí)別方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種具有語(yǔ)音識(shí)別功能的智能語(yǔ)音終端設(shè)備
- 語(yǔ)音增強(qiáng)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種聲紋鑒定語(yǔ)音重組方法和系統(tǒng)
- 狀態(tài)檢測(cè)裝置及狀態(tài)檢測(cè)方法
- 狀態(tài)估計(jì)裝置以及狀態(tài)估計(jì)方法
- 經(jīng)由次級(jí)狀態(tài)推斷管理狀態(tài)
- 狀態(tài)估計(jì)裝置及狀態(tài)估計(jì)方法
- 狀態(tài)估計(jì)裝置、狀態(tài)估計(jì)方法
- 狀態(tài)預(yù)測(cè)裝置以及狀態(tài)預(yù)測(cè)方法
- 狀態(tài)推定裝置、狀態(tài)推定方法和狀態(tài)推定程序
- 狀態(tài)檢測(cè)系統(tǒng)及狀態(tài)檢測(cè)方法
- 狀態(tài)判定裝置、狀態(tài)判定方法以及狀態(tài)判定程序
- 狀態(tài)判斷裝置以及狀態(tài)判斷方法
- 檢測(cè)裝置、檢測(cè)方法和檢測(cè)組件
- 檢測(cè)方法、檢測(cè)裝置和檢測(cè)系統(tǒng)
- 檢測(cè)裝置、檢測(cè)方法以及記錄介質(zhì)
- 檢測(cè)設(shè)備、檢測(cè)系統(tǒng)和檢測(cè)方法
- 檢測(cè)芯片、檢測(cè)設(shè)備、檢測(cè)系統(tǒng)和檢測(cè)方法
- 檢測(cè)裝置、檢測(cè)設(shè)備及檢測(cè)方法
- 檢測(cè)芯片、檢測(cè)設(shè)備、檢測(cè)系統(tǒng)
- 檢測(cè)組件、檢測(cè)裝置以及檢測(cè)系統(tǒng)
- 檢測(cè)裝置、檢測(cè)方法及檢測(cè)程序
- 檢測(cè)電路、檢測(cè)裝置及檢測(cè)系統(tǒng)





