[發明專利]一種基于視頻分析的說話識別方法、系統、設備及介質有效
| 申請號: | 202110587534.9 | 申請日: | 2021-05-27 |
| 公開(公告)號: | CN113177531B | 公開(公告)日: | 2023-07-07 |
| 發明(設計)人: | 黃歡;尹士朝 | 申請(專利權)人: | 廣州廣電運通智能科技有限公司;廣州廣電運通金融電子股份有限公司 |
| 主分類號: | G06V40/16 | 分類號: | G06V40/16;G06V20/40;G10L15/22 |
| 代理公司: | 杭州創智卓英知識產權代理事務所(普通合伙) 33324 | 代理人: | 張超 |
| 地址: | 510000 廣東省廣州市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 視頻 分析 說話 識別 方法 系統 設備 介質 | ||
1.一種基于視頻分析的說話識別方法,所述方法應用于智能交互系統中,其特征在于:包括以下步驟:
讀取視頻數據,讀取智能交互系統中攝像頭采集到的目標視頻數據;
圖像預處理,對所述目標視頻數據中每一視頻幀進行裁剪處理以及灰度化處理,得到每一視頻幀對應的輸入圖像;
人臉檢測,對每一視頻幀對應的輸入圖像進行人臉檢測處理,得到與每一輸入圖像對應的人臉檢測框;
人臉篩選,對每一視頻幀對應的輸入圖像對應的人臉檢測框進行篩選,將符合預設人臉篩選規則的每一視頻幀對應的人臉檢測框作為最終人臉檢測框;
關鍵點提取,對每一最終人臉檢測框進行關鍵點提取處理,提取最終人臉檢測框中的嘴唇輪廓和含有若干臉部關鍵點的臉部關鍵點集合;
生成特征列表,根據所述嘴唇輪廓和臉部關鍵點計算出每一最終人臉檢測框對應的特征結果,并將所有特征結果存儲至預先設置的特征列表中;
說話識別,將所述含有若干特征結果的特征列表輸入至預設說話識別模型中進行識別,得到與待識別人物對應的說話識別結果;
所述特征結果包括嘴唇開合橫縱比和嘴唇張開程度,所述嘴唇輪廓包括若干嘴唇輪廓點;
所述根據所述嘴唇輪廓和臉部關鍵點計算出每一最終人臉檢測框對應的特征結果具體為:將臉部關鍵點集合中位于臉部兩側最高位置處的臉部關鍵點之間的距離作為第一距離,將嘴唇輪廓中兩側嘴角處對應的嘴唇輪廓點之間的距離作為第二距離,將兩側嘴角上部的嘴唇輪廓作為上嘴唇輪廓,將兩側嘴角下部的嘴唇輪廓作為下嘴唇輪廓,將上嘴唇輪廓外圈中心點位置處的嘴唇輪廓點作為上嘴唇輪廓外圈中心點,將下嘴唇輪廓外圈中心點位置處的嘴唇輪廓點作為下嘴唇輪廓外圈中心點,將上嘴唇輪廓外圈中心點與下嘴唇輪廓外圈中心點的距離作為第三距離,將上嘴唇輪廓外圈中心點兩側相鄰的嘴唇輪廓點與對應的下嘴唇輪廓外圈中心點兩側相鄰的嘴唇輪廓點之間的距離作為第四距離和第五距離,根據預設函數、第一距離、第二距離、第三距離、第四距離以及第五距離計算出嘴唇開合橫縱比和嘴唇張開程度。
2.如權利要求1所述的一種基于視頻分析的說話識別方法,其特征在于:所述說話識別具體為:將不同特征結果中嘴唇開合橫縱比和嘴唇張開程度輸入至預設說話識別模型中進行識別,所述預設說話識別模型根據嘴唇開合橫縱比和嘴唇張開程度判斷待識別人物的說話狀態,得到與待識別人物對應的說話識別結果,所述預設說話識別模型為經過預先采集的樣本數據進行訓練的模型,所述樣本數據包括預設嘴唇開合橫縱比、預設嘴唇張開程度以及對應的說話狀態。
3.如權利要求1所述的一種基于視頻分析的說話識別方法,其特征在于:每一特征列表中包括六幀最終人臉檢測框對應的特征結果。
4.如權利要求1所述的一種基于視頻分析的說話識別方法,其特征在于:所述圖像預處理具體為:對所述目標視頻數據中每一視頻幀進行尺寸裁剪,并將經過尺寸裁剪的視頻幀進行灰度處理,轉換為灰度圖,將灰度圖作為輸入圖像。
5.如權利要求1所述的一種基于視頻分析的說話識別方法,其特征在于:所述人臉篩選具體為:計算每個輸入圖像對應的人臉檢測框的面積,得到人臉檢測框面積值,判斷人臉檢測框面積值是否滿足預設人臉篩選規則,若滿足,將對應的人臉檢測框作為最終人臉檢測框。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州廣電運通智能科技有限公司;廣州廣電運通金融電子股份有限公司,未經廣州廣電運通智能科技有限公司;廣州廣電運通金融電子股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110587534.9/1.html,轉載請聲明來源鉆瓜專利網。





