[發(fā)明專利]基于唇部的語音端點(diǎn)檢測方法及裝置、車載終端、存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202110633035.9 | 申請日: | 2021-06-07 |
| 公開(公告)號: | CN113380236A | 公開(公告)日: | 2021-09-10 |
| 發(fā)明(設(shè)計)人: | 管岱 | 申請(專利權(quán))人: | 斑馬網(wǎng)絡(luò)技術(shù)有限公司 |
| 主分類號: | G10L15/04 | 分類號: | G10L15/04;G10L15/25;G10L25/78;G06K9/62;G06K9/00 |
| 代理公司: | 上海華誠知識產(chǎn)權(quán)代理有限公司 31300 | 代理人: | 徐穎聰 |
| 地址: | 200030 上海*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 唇部 語音 端點(diǎn) 檢測 方法 裝置 車載 終端 存儲 介質(zhì) | ||
1.一種基于唇部的語音端點(diǎn)檢測方法,其特征在于,包括:
獲取語音信息及所述語音信息所對應(yīng)的第一時間段;
基于所述第一時間段獲取視頻流;
基于所述視頻流,進(jìn)行唇動檢測,提取視覺特征;
基于唇部的所述視覺特征,確定語音端點(diǎn)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,基于所述第一時間段獲取視頻流包括:
在由語音采集裝置采集并提供的語音信息與視頻采集裝置采集并提供的所述視頻流進(jìn)行進(jìn)程通信,以獲得所述第一時間段內(nèi)的所述視頻流與語音信息。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述基于所述視頻流,進(jìn)行唇動檢測,提取視覺特征,包括:
將所述視頻流以幀為單位分割為多幀圖像;
確定時間窗口,獲取該時間窗口內(nèi)的視覺特征,其中,所述時間窗口內(nèi)包括多幀圖像;
通過滑窗處理確定所述視頻流對應(yīng)的視覺特征。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,獲取該時間窗口內(nèi)的視覺特征包括:
對于時間窗口內(nèi)的每幀所述圖像,確定唇部區(qū)域;
基于每幀圖像的唇部區(qū)域,提取唇部特征;
基于該時間窗口內(nèi)的所有幀圖像的所述唇部特征進(jìn)行融合,得到該時間窗口內(nèi)的所述視覺特征。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,對于時間窗口內(nèi)的每幀所述圖像,確定唇部區(qū)域包括:
對于每幀所述圖像,利用人臉檢測算法確定人臉位置;
基于所述人臉位置,利用人臉特征點(diǎn)定位算法獲得人臉特征點(diǎn)位置;
基于所述人臉特征點(diǎn)位置,在所述圖像中確定所述唇部區(qū)域。
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,基于每幀圖像的唇部區(qū)域,提取唇部特征包括:
利用神經(jīng)網(wǎng)絡(luò)編碼器從每幀所述圖像的唇部區(qū)域中,提取所述唇部特征。
7.根據(jù)權(quán)利要求4所述的方法,其特征在于,在對于每幀所述圖像的唇部區(qū)域提取唇部特征后,將所提取的唇部特征與此前一幀圖像的唇部特征進(jìn)行幀間時序融合處理,得到作為該幀圖像的唇部特征的融合唇部特征,基于該時間窗口內(nèi)的所有幀圖像的融合唇部特征進(jìn)行融合,得到該時間窗口內(nèi)的所述視覺特征。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述幀間時序融合包括:
從上一幀圖像得到的唇部特征抽取預(yù)定比例,得到第一特征圖;
從當(dāng)前幀圖像提取的唇部特征抽取殘余比例,得到第二特征圖,其中所述殘余比例與所述預(yù)定比例的總和合計為1;
將所述第一特征圖與所述第二特征圖進(jìn)行拼接,得到所述融合唇部特征。
9.根據(jù)權(quán)利要求4所述的方法,其特征在于,基于該時間窗口內(nèi)的所有幀圖像的所述唇部特征進(jìn)行融合,得到該時間窗口內(nèi)的所述視覺特征包括:
對該時間窗口內(nèi)的所有幀圖像的所述唇部特征進(jìn)行融合后,利用神經(jīng)網(wǎng)絡(luò)解碼器進(jìn)行解碼,得到所述視覺特征。
10.一種基于唇部的語音端點(diǎn)檢測裝置,其特征在于,包括:
獲取模塊,用于獲取語音信息及語音信息所對應(yīng)的第一時間段,以及基于所述第一時間段獲取視頻流;
視頻特征提取模塊,用于基于所述視頻流,進(jìn)行唇動檢測,提取視覺特征;
語音端點(diǎn)確定模塊,用于基于唇部的所述視覺特征,確定語音端點(diǎn)。
11.一種車載終端,其特征在于,包括:
處理器;和
存儲器,在所述存儲器中存儲有計算機(jī)程序指令,
其中,在所述計算機(jī)程序指令被所述處理器運(yùn)行時,使得所述處理器執(zhí)行如權(quán)利要求1至9所述的方法。
12.一種計算機(jī)可讀存儲介質(zhì),其特征在于,所述計算機(jī)可讀存儲介質(zhì)存儲有計算機(jī)程序指令,所述計算機(jī)程序指令被處理器運(yùn)行時,使得所述處理器執(zhí)行如權(quán)利要求1至9所述的方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于斑馬網(wǎng)絡(luò)技術(shù)有限公司,未經(jīng)斑馬網(wǎng)絡(luò)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110633035.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





