[發(fā)明專利]多模態(tài)融合的動作識別方法、裝置及計算機可讀存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 201810877125.0 | 申請日: | 2018-08-03 |
| 公開(公告)號: | CN110795973A | 公開(公告)日: | 2020-02-14 |
| 發(fā)明(設(shè)計)人: | 劉家瑛;蔣鴻達;宋思捷;厲揚豪;郭宗明 | 申請(專利權(quán))人: | 北京大學(xué);北大方正集團有限公司;北京北大方正電子有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/04 |
| 代理公司: | 11205 北京同立鈞成知識產(chǎn)權(quán)代理有限公司 | 代理人: | 張芳;劉芳 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 多模態(tài) 神經(jīng)網(wǎng)絡(luò)模型 單模態(tài) 訓(xùn)練模型 訓(xùn)練數(shù)據(jù) 預(yù)設(shè) 計算機可讀存儲介質(zhì) 多模態(tài)數(shù)據(jù) 動作識別 流動連接 識別設(shè)備 添加信息 融合 | ||
1.一種多模態(tài)融合的動作識別方法,其特征在于,包括:
通過預(yù)設(shè)的單模態(tài)待訓(xùn)練數(shù)據(jù)對至少一個單模態(tài)待訓(xùn)練模型進行訓(xùn)練,獲得至少一個單模態(tài)神經(jīng)網(wǎng)絡(luò)模型;
在任意兩個所述單模態(tài)神經(jīng)網(wǎng)絡(luò)模型之間添加信息流動連接,獲得多模態(tài)待訓(xùn)練模型;
通過預(yù)設(shè)的多模態(tài)待訓(xùn)練數(shù)據(jù)對所述多模態(tài)待訓(xùn)練模型進行訓(xùn)練,獲得多模態(tài)神經(jīng)網(wǎng)絡(luò)模型;
將待識別多模態(tài)數(shù)據(jù)添加至所述多模態(tài)神經(jīng)網(wǎng)絡(luò)模型中進行識別。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過預(yù)設(shè)的單模態(tài)待訓(xùn)練數(shù)據(jù)對至少一個單模態(tài)待訓(xùn)練模型進行訓(xùn)練,獲得至少一個單模態(tài)神經(jīng)網(wǎng)絡(luò)模型,包括:
將所述單模態(tài)待訓(xùn)練數(shù)據(jù)轉(zhuǎn)換為多幀圖像,并根據(jù)所述單模態(tài)待訓(xùn)練數(shù)據(jù)對應(yīng)的多幀圖像對所述單模態(tài)待訓(xùn)練模型進行訓(xùn)練;
針對每一所述單模態(tài)待訓(xùn)練模型,接收所述單模態(tài)待訓(xùn)練模型輸出的第一訓(xùn)練結(jié)果;
根據(jù)所述第一訓(xùn)練結(jié)果與預(yù)設(shè)的第一真實結(jié)果計算所述單模態(tài)待訓(xùn)練模型的第一網(wǎng)絡(luò)誤差;
根據(jù)所述第一網(wǎng)絡(luò)誤差對所述單模態(tài)待訓(xùn)練模型進行參數(shù)調(diào)整,直至所述單模態(tài)待訓(xùn)練模型收斂,獲得所述單模態(tài)神經(jīng)網(wǎng)絡(luò)模型。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過預(yù)設(shè)的多模態(tài)待訓(xùn)練數(shù)據(jù)對所述多模態(tài)待訓(xùn)練模型進行訓(xùn)練,獲得多模態(tài)神經(jīng)網(wǎng)絡(luò)模型,包括:
將所述多模態(tài)待訓(xùn)練數(shù)據(jù)轉(zhuǎn)換為多幀圖像,并根據(jù)所述多模態(tài)待訓(xùn)練數(shù)據(jù)對應(yīng)的多幀圖像對所述多模態(tài)待訓(xùn)練模型進行訓(xùn)練;
接收所述多模態(tài)待訓(xùn)練模型輸出的第二訓(xùn)練結(jié)果;
根據(jù)所述第二訓(xùn)練結(jié)果與預(yù)設(shè)的第二真實結(jié)果計算所述多模態(tài)待訓(xùn)練模型的第二網(wǎng)絡(luò)誤差;
根據(jù)所述第而網(wǎng)絡(luò)誤差對所述多模態(tài)待訓(xùn)練模型進行參數(shù)調(diào)整,直至所述多模態(tài)待訓(xùn)練模型收斂,獲得所述多模態(tài)神經(jīng)網(wǎng)絡(luò)模型。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將待識別多模態(tài)數(shù)據(jù)添加至所述多模態(tài)神經(jīng)網(wǎng)絡(luò)模型中進行識別,包括:
將所述待識別多模態(tài)數(shù)據(jù)轉(zhuǎn)換為多幀圖像,將所述待識別多模態(tài)數(shù)據(jù)對應(yīng)的多幀圖像添加至所述多模態(tài)神經(jīng)網(wǎng)絡(luò)模型中;
選取所述待識別多模態(tài)數(shù)據(jù)對應(yīng)的K幀圖像對應(yīng)的輸出結(jié)果;
計算所述K幀圖像對應(yīng)的輸出結(jié)果的平均值,將所述平均值作為識別結(jié)果。
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述第一網(wǎng)絡(luò)誤差對所述單模態(tài)待訓(xùn)練模型進行參數(shù)調(diào)整,直至所述單模態(tài)待訓(xùn)練模型收斂,獲得所述單模態(tài)神經(jīng)網(wǎng)絡(luò)模型,包括:
根據(jù)所述第一網(wǎng)絡(luò)誤差通過反向傳播的方法對所述單模態(tài)待訓(xùn)練模型進行參數(shù)調(diào)整,直至所述單模態(tài)待訓(xùn)練模型收斂,獲得所述單模態(tài)神經(jīng)網(wǎng)絡(luò)模型。
6.一種多模態(tài)融合的動作識別裝置,其特征在于,包括:
第一訓(xùn)練模塊,用于通過預(yù)設(shè)的單模態(tài)待訓(xùn)練數(shù)據(jù)對至少一個單模態(tài)待訓(xùn)練模型進行訓(xùn)練,獲得至少一個單模態(tài)神經(jīng)網(wǎng)絡(luò)模型;
連接模塊,用于在任意兩個所述單模態(tài)神經(jīng)網(wǎng)絡(luò)模型之間添加信息流動連接,獲得多模態(tài)待訓(xùn)練模型;
第二訓(xùn)練模塊,用于通過預(yù)設(shè)的多模態(tài)待訓(xùn)練數(shù)據(jù)對所述多模態(tài)待訓(xùn)練模型進行訓(xùn)練,獲得多模態(tài)神經(jīng)網(wǎng)絡(luò)模型;
識別模塊,用于將待識別多模態(tài)數(shù)據(jù)添加至所述多模態(tài)神經(jīng)網(wǎng)絡(luò)模型中進行識別。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述第一訓(xùn)練模塊包括:
第一轉(zhuǎn)換單元,用于將所述單模態(tài)待訓(xùn)練數(shù)據(jù)轉(zhuǎn)換為多幀圖像,并根據(jù)所述單模態(tài)待訓(xùn)練數(shù)據(jù)對應(yīng)的多幀圖像對所述單模態(tài)待訓(xùn)練模型進行訓(xùn)練;
第一接收單元,用于針對每一所述單模態(tài)待訓(xùn)練模型,接收所述單模態(tài)待訓(xùn)練模型輸出的第一訓(xùn)練結(jié)果;
第一計算單元,用于根據(jù)所述第一訓(xùn)練結(jié)果與預(yù)設(shè)的第一真實結(jié)果計算所述單模態(tài)待訓(xùn)練模型的第一網(wǎng)絡(luò)誤差;
第一調(diào)整單元,用于根據(jù)所述第一網(wǎng)絡(luò)誤差對所述單模態(tài)待訓(xùn)練模型進行參數(shù)調(diào)整,直至所述單模態(tài)待訓(xùn)練模型收斂,獲得所述單模態(tài)神經(jīng)網(wǎng)絡(luò)模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京大學(xué);北大方正集團有限公司;北京北大方正電子有限公司,未經(jīng)北京大學(xué);北大方正集團有限公司;北京北大方正電子有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810877125.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標記或含有代碼標記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 用于智能機器人系統(tǒng)多模態(tài)輸出的方法及裝置
- 一種基于深度學(xué)習(xí)的多模態(tài)醫(yī)學(xué)影像識別方法及裝置
- 一種基于多模態(tài)生成式對抗網(wǎng)絡(luò)的云圖分類方法
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 一種有監(jiān)督的快速離散多模態(tài)哈希檢索方法和系統(tǒng)
- 一種多模態(tài)數(shù)據(jù)處理方法及系統(tǒng)
- 一種基于多模態(tài)學(xué)習(xí)的電力攻擊識別方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應(yīng)用該系統(tǒng)的方法
- 一種基于門機制多模態(tài)融合的情感分析方法
- 面向?qū)捰蝻w行的多模態(tài)精確劃分方法
- 一種對神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練的方法、裝置及電子設(shè)備
- 一種神經(jīng)網(wǎng)絡(luò)模型壓縮方法以及裝置
- 姿態(tài)檢測方法、裝置、設(shè)備及存儲介質(zhì)
- 基于無標簽數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)模型量化方法及裝置
- 神經(jīng)網(wǎng)絡(luò)模型更新方法、圖像處理方法及裝置
- 含有聚類拓撲耦合的神經(jīng)網(wǎng)絡(luò)脈沖同步方法及系統(tǒng)
- 一種神經(jīng)網(wǎng)絡(luò)模型的部署方法、設(shè)備及介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)模型的優(yōu)化方法、裝置、設(shè)備及存儲介質(zhì)
- 基于框架搜索的深度神經(jīng)網(wǎng)絡(luò)的加速與壓縮方法及系統(tǒng)
- 一種神經(jīng)網(wǎng)絡(luò)模型生成方法及裝置
- 多模態(tài)融合的動作識別方法、裝置及計算機可讀存儲介質(zhì)
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 基于CPCI總線的可擴展的多模態(tài)層析成像系統(tǒng)
- 可擴展的多模態(tài)層析成像系統(tǒng)
- 視頻人物檢索方法、介質(zhì)、裝置和計算設(shè)備
- 語義表示模型的預(yù)訓(xùn)練方法、裝置、電子設(shè)備及存儲介質(zhì)
- 基于變分模態(tài)分解和預(yù)測性能的單模態(tài)子信號選擇方法
- 基于跨模態(tài)行人重識別方法及裝置
- 跨模態(tài)人臉識別的方法、裝置、設(shè)備和存儲介質(zhì)
- 用于視頻分類的方法、裝置、設(shè)備、存儲介質(zhì)和程序產(chǎn)品
- 自動化的模型訓(xùn)練方法、裝置、設(shè)備及介質(zhì)
- 變換模型訓(xùn)練方法、裝置、設(shè)備和存儲介質(zhì)
- 信息處理裝置和方法以及利用模型分類的裝置
- 一種模型訓(xùn)練的方法和裝置
- 模型訓(xùn)練方法、模型訓(xùn)練裝置和實體抽取方法
- 選擇模型訓(xùn)練方法、模型選擇方法、裝置及電子設(shè)備
- 模型訓(xùn)練方法及裝置
- 模型的訓(xùn)練方法、模型的預(yù)測方法以及模型的控制系統(tǒng)
- 一種模型生成及電池劣化推測裝置、方法、介質(zhì)及設(shè)備
- 模型訓(xùn)練方法、模型訓(xùn)練平臺、電子設(shè)備和存儲介質(zhì)





