[發(fā)明專利]一種基于視頻分析的說話識別方法、系統(tǒng)、設(shè)備及介質(zhì)有效
| 申請?zhí)枺?/td> | 202110587534.9 | 申請日: | 2021-05-27 |
| 公開(公告)號: | CN113177531B | 公開(公告)日: | 2023-07-07 |
| 發(fā)明(設(shè)計)人: | 黃歡;尹士朝 | 申請(專利權(quán))人: | 廣州廣電運通智能科技有限公司;廣州廣電運通金融電子股份有限公司 |
| 主分類號: | G06V40/16 | 分類號: | G06V40/16;G06V20/40;G10L15/22 |
| 代理公司: | 杭州創(chuàng)智卓英知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 33324 | 代理人: | 張超 |
| 地址: | 510000 廣東省廣州市*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 視頻 分析 說話 識別 方法 系統(tǒng) 設(shè)備 介質(zhì) | ||
本發(fā)明提供一種基于視頻分析的說話識別方法,包括對目標(biāo)視頻數(shù)據(jù)中每一視頻幀進行裁剪處理以及灰度化處理,得到每一視頻幀對應(yīng)的輸入圖像;對所有輸入圖像進行人臉檢測處理,得到人臉檢測框;對所有輸入圖像對應(yīng)的人臉檢測框進行篩選,將符合預(yù)設(shè)人臉篩選規(guī)則的每一視頻幀對應(yīng)的人臉檢測框作為這一幀的最終人臉檢測框;根據(jù)最終人臉檢測框中嘴唇輪廓和臉部關(guān)鍵點計算出每一最終人臉檢測框?qū)?yīng)的特征結(jié)果,將含有若干特征結(jié)果輸入至預(yù)設(shè)說話識別模型中進行識別,得到與待識別人物對應(yīng)的說話識別結(jié)果。本發(fā)明的一種基于視頻分析的說話識別方法,使得到的說話識別結(jié)果更加精準(zhǔn),而且可以適應(yīng)待識別人物說話時的不同形態(tài)。
技術(shù)領(lǐng)域
本發(fā)明涉及智能交互領(lǐng)域,尤其涉及一種基于視頻分析的說話識別方法、系統(tǒng)、設(shè)備及介質(zhì)。
背景技術(shù)
在智能交互領(lǐng)域,在啟動智能交互系統(tǒng)時,需要先判斷待識別人物是否說話,當(dāng)待識別人物處于說話狀態(tài)時,智能交互系統(tǒng)啟動拾音功能并執(zhí)行后續(xù)的語音交互功能。目前智能交互領(lǐng)域?qū)τ诖R別人物是否處于說話狀態(tài)的判斷為基于唇部特征點結(jié)合簡單的閾值分析來判斷是否說話或通過音頻分析再結(jié)合唇部特征分析來判斷是否說話。上述的說話識別過程前者閾值分析無法做到模型的魯棒性,不適用于復(fù)雜多變的場景;后者則需要借助音頻信息進一步輔助判斷,顯得不夠智能化。因此傳統(tǒng)的智能交互系統(tǒng)中對于視頻中人物的說話識別存在一定局限性而且不夠智能化。
發(fā)明內(nèi)容
為了克服現(xiàn)有技術(shù)的不足,本發(fā)明的目的之一在于提供一種基于視頻分析的說話識別方法,其能解決傳統(tǒng)的智能交互系統(tǒng)中對于待識別人物的說話識別存在一定局限性而且不夠智能化的問題。
本發(fā)明的目的之二在于提供一種基于視頻分析的說話識別系統(tǒng),其能解決傳統(tǒng)的智能交互系統(tǒng)中對于待識別人物的說話識別存在一定局限性而且不夠智能化的問題。
本發(fā)明的目的之三在于提供一種電子設(shè)備,其能解決傳統(tǒng)的智能交互系統(tǒng)中對于待識別人物的說話識別存在一定局限性而且不夠智能化的問題。
本發(fā)明的目的之四在于提供一種計算機可讀存儲介質(zhì),其能解決傳統(tǒng)的智能交互系統(tǒng)中對于待識別人物的說話識別存在一定局限性而且不夠智能化的問題。
本發(fā)明的目的之一采用以下技術(shù)方案實現(xiàn):
一種基于視頻分析的說話識別方法,所述方法應(yīng)用于智能交互系統(tǒng)中,包括以下步驟:
讀取視頻數(shù)據(jù),讀取智能交互系統(tǒng)中攝像頭采集到的目標(biāo)視頻數(shù)據(jù);
圖像預(yù)處理,對所述目標(biāo)視頻數(shù)據(jù)中每一視頻幀進行裁剪處理以及灰度化處理,得到每一視頻幀對應(yīng)的輸入圖像;
人臉檢測,對每一視頻幀對應(yīng)的輸入圖像進行人臉檢測處理,得到與每一輸入圖像對應(yīng)的人臉檢測框;
人臉篩選,對每一視頻幀對應(yīng)的輸入圖像對應(yīng)的人臉檢測框進行篩選,將符合預(yù)設(shè)人臉篩選規(guī)則的每一視頻幀對應(yīng)的人臉檢測框作為最終人臉檢測框;
關(guān)鍵點提取,對每一最終人臉檢測框進行關(guān)鍵點提取處理,提取最終人臉檢測框中的嘴唇輪廓和含有若干臉部關(guān)鍵點的臉部關(guān)鍵點集合;
生成特征列表,根據(jù)所述嘴唇輪廓和臉部關(guān)鍵點計算出每一最終人臉檢測框?qū)?yīng)的特征結(jié)果,并將所有特征結(jié)果存儲至預(yù)先設(shè)置的特征列表中;
說話識別,將所述含有若干特征結(jié)果的特征列表輸入至預(yù)設(shè)說話識別模型中進行識別,得到與待識別人物對應(yīng)的說話識別結(jié)果。
進一步地,所述特征結(jié)果包括嘴唇開合橫縱比和嘴唇張開程度,所述嘴唇輪廓包括若干嘴唇輪廓點。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣州廣電運通智能科技有限公司;廣州廣電運通金融電子股份有限公司,未經(jīng)廣州廣電運通智能科技有限公司;廣州廣電運通金融電子股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110587534.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





