[發明專利]融合視頻感知的多任務協同識別方法及系統在審
| 申請號: | 201810744934.4 | 申請日: | 2018-07-09 |
| 公開(公告)號: | CN108846384A | 公開(公告)日: | 2018-11-20 |
| 發明(設計)人: | 明悅 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00 |
| 代理公司: | 北京市商泰律師事務所 11255 | 代理人: | 黃曉軍 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 多源異構 協同 任務協同 視頻數據 視頻感知 通用特征 長時 視頻 視頻數據處理 關聯 計算復雜度 結合生物 控制服務 任務識別 視覺感知 語義描述 智慧城市 智能信息 融合 泛化性 魯棒性 智能化 預測 推送 語境 感知 個性化 視覺 共享 移動 學習 研究 | ||
本發明提供了一種融合視頻感知的多任務協同識別方法和系統,屬于多源異構視頻數據處理識別技術領域,結合生物視覺感知機理,研究多源異構視頻數據特征協同的共享語義描述,獲取多源異構視頻數據的通用特征描述;利用適境計算理論,建立任務協同的特征關聯學習和任務預測機制,實現適境感知的任務關聯預測機制;結合長時依賴,提出語境協同的視覺多任務深度協同識別模型,實現具備長時記憶的多任務深度協同識別模型,解決視頻多任務識別的泛化性差、魯棒性低、計算復雜度高等問題。本發明提出智能化、普適化、移動化的視頻通用特征描述方法和多任務深度協同識別模型,可促進智慧城市多源異構視頻數據的智能信息推送、個性化控制服務等領域的發展。
技術領域
本發明涉及多源異構視頻數據處理識別技術領域,具體涉及一種融合視頻感知的多任務協同識別方法和系統。
背景技術
人工智能以大數據、云計算、智能終端等技術的發展為支撐,以深度神經網絡為基礎,即將進入全面發展的新紀元。面對海量數據在存儲和處理上超高速、移動化和普適化的迫切需求,基于單模態單任務的專用人工智能已經成為掣肘該領域發展的重要瓶頸。
傳統的單任務識別無法滿足人工智能背景下的通用化要求,以其中最有代表性的智慧城市建設中同時涉及的人臉視頻識別、人體行為識別、車輛分類識別等任務需求為例,視頻采集攝像頭種類繁多、規格各異,造成視頻數據呈現海量多源異構性,亟需規整同構的視頻特征描述方法和高效協同的識別機制,實現對目標、場景、行為、異常事件的準確識別。因此,面向多任務深度協同的視覺識別機制可為未來智能信息推送和個性化控制服務的實現,奠定重要的理論基礎。
所謂多源視頻感知的多任務深度協同識別研究是指基于生物視覺感知機理,提取多源異構視頻數據的通用特征,結合適境理論進行特征關聯學習和任務預測,建立具備長時記憶的深度協同識別網絡,即實現語境層的多任務的協同感知識別。例如:一段“食堂里小明向我打招呼”的視頻片段中,達到同時識別多種視覺任務的效果,即同時識別場景(食堂)、目標(小明)、行為(打招呼)、表情(笑)等視覺任務,而不是每個識別任務建立一套單獨的識別模型,分別輸出識別結果,既浪費計算資源,又難以處理海量數據,實現實用化要求。
在當前視覺識別技術中,基于深度學習的特征提取方法在場景、目標、行為、表情等單個識別任務測試中均表現出優越的性能。然而,對于海量多源異構數據,隨著用戶規模、場景變換和時間推移,又產生一些新問題:
泛化瓶頸:不同任務模式間數據分布差異顯著,對小規模數據任務易產生過擬合,而海量數據任務又面臨高昂訓練和標記成本,使得不同任務間無法取得平衡泛化性,模型在變化環境或場景下泛化性能明顯下降;
效率瓶頸:深度網絡模型復雜,參數數目巨大,盡管已有生成對抗網絡、膠囊網絡等對降低數據需求和資源消耗進行了有益的嘗試,但在面對不同識別任務,不同網絡結構,仍難以實現資源迅速而均衡的高效分配;
遷移瓶頸:場景變化時無法根據數據的歷史信息,進行關聯預測,建立長時選擇性記憶和遺忘機制,實現適境遷移的自適應學習。例如小明從教室走向食堂,實現對目標行為從學習變換為吃飯的識別任務遷移。
因此,視覺多任務學習中具有任務協同能力的關聯預測和語境層的深度協同識別建模,成為當前視覺智能感知識別中亟待解決的核心問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810744934.4/2.html,轉載請聲明來源鉆瓜專利網。





