[發明專利]一種行為識別處理方法及裝置有效
| 申請號: | 201911311563.1 | 申請日: | 2019-12-18 |
| 公開(公告)號: | CN111046819B | 公開(公告)日: | 2023-09-05 |
| 發明(設計)人: | 魏乃科;馮復標;潘華東;殷俊 | 申請(專利權)人: | 浙江大華技術股份有限公司 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V20/40;G06V10/25;G06V10/764;G06Q10/0639;G06Q50/20;G10L15/00 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 張秀英 |
| 地址: | 310051 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 行為 識別 處理 方法 裝置 | ||
本發明提供了一種行為識別處理方法及裝置,其中,該方法包括:獲取針對預定區域范圍采集的音視頻數據,對所述音視頻數據進行處理,得到視頻數據和音頻數據;對所述視頻數據進行分析,得到第一目標對象和/或第二目標對象的行為類別;對所述音頻數據進行語音識別,得到所述第一目標對象的語音內容和/或所述第二目標對象的語音信息;根據所述第一目標對象和/或所述第二目標對象的行為類別、語音信息對所述第一目標對象的行為進行識別,可以解決相關技術中通過靜態圖像很難準確識別教師行為的問題,通過第二目標對象和/或第一目標對象的行為結合語音信息,提高了第一目標對象(即教師)行為識別的準確性。
技術領域
本發明涉及教育信息化技術領域,具體而言,涉及一種行為識別處理方法及裝置。
背景技術
隨著深度學習技術的快速發展,計算機視覺得到了快速的發展。利用深度學習技術識別課堂內教師和學生的行為,效果更好,準確性更高。
課堂是教育行為最常發生的地方,而教室是教學信息傳遞的場所,在這個指定環境內,老師的肢體動作、語音、板書、課件、講授的使用等,加上學生的行為和語音,共同構成了信息的傳遞。老師可以通過學生的行為、語言了解學生對知識的掌握情況,學生通過老師的講授學習知識,這里信息是多維度的,既包括學生圖像、老師圖像,也包括他們各自的語音信息。
現有技術中基于圖像的分析相當于看圖說話,如果缺乏語音的補充,將丟失很多細節,或者產生歧義;比如圖像中看到老師手指向學生區,如果沒有對聲音的理解,很難區分此時老師的真實意圖;再比如,沒有語音信息作為輔助,僅僅通過靜態的圖像很難自動得到老師此時正在講授什么知識點,而現有技術中缺乏這樣的解決方案。
針對相關技術中通過靜態圖像很難準確識別教師行為的問題,尚未提出解決方案。
發明內容
本發明實施例提供了一種行為識別處理方法及裝置,以至少解決相關技術中通過靜態圖像很難準確識別教師行為的問題。
根據本發明的一個實施例,提供了一種行為識別處理方法,包括:
獲取針對預定區域范圍采集的音視頻數據,對所述音視頻數據進行處理,得到視頻數據和音頻數據;
對所述視頻數據進行分析,得到第一目標對象和/或第二目標對象的行為類別;
對所述音頻數據進行語音識別,得到所述第一目標對象的語音內容和/或所述第二目標對象的語音信息;
根據所述第一目標對象和/或所述第二目標對象的行為類別、語音信息對所述第一目標對象的行為進行識別。
可選地,對所述視頻數據進行分析,得到第一目標對象和/或第二目標對象的行為類別包括:
將所述預定區域范圍劃分為多個子區域,并確定所述第一目標對象在所述多個子區域中的時長;
確定所述預定區域范圍內第二目標對象的數量以及預定時間內的人數變動;
識別所述視頻數據中所述第二目標對象的異常行為。
可選地,對所述音頻數據進行語音識別,得到所述第一目標對象的語音內容和/或所述第二目標對象的語音信息包括:
對所述音頻數據進行語音識別,得到所述第一目標對象的語音內容;
確定所述第一目標對象的語速、音量、語音時長,以及確定所述第一目標對象與一個或多個所述第二目標對象之間的語音互動;
獲取除所述語音互動之外的所述第二目標對象的語音信息。
可選地,對所述視頻數據進行分析,得到第一目標對象和/或第二目標對象的行為類別包括:
確定所述視頻數據中所述第一目標對象和/或所述第二目標對象的人體關鍵點;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大華技術股份有限公司,未經浙江大華技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911311563.1/2.html,轉載請聲明來源鉆瓜專利網。





