[發(fā)明專利]基于多模態(tài)智能機(jī)器人的交互身份鑒別與跟蹤方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201711110949.7 | 申請(qǐng)日: | 2017-11-13 |
| 公開(公告)號(hào): | CN107808145B | 公開(公告)日: | 2021-03-30 |
| 發(fā)明(設(shè)計(jì))人: | 劉揚(yáng);李佩琛;邵陽雪 | 申請(qǐng)(專利權(quán))人: | 河南大學(xué) |
| 主分類號(hào): | G06K9/00 | 分類號(hào): | G06K9/00;G10L17/22;G10L17/18;G10L17/02;G06F3/0484;G06F21/32 |
| 代理公司: | 鄭州大通專利商標(biāo)代理有限公司 41111 | 代理人: | 陳勇 |
| 地址: | 475004 河南省開封市金*** | 國省代碼: | 河南;41 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 多模態(tài) 智能 機(jī)器人 交互 身份 鑒別 跟蹤 方法 系統(tǒng) | ||
本發(fā)明屬于智能機(jī)器人領(lǐng)域,具體涉及用于智能對(duì)話機(jī)器人的多模態(tài)的鑒別和跟蹤交互者身份的方法,尤其涉及基于多模態(tài)智能機(jī)器人的交互身份鑒別與跟蹤方法及系統(tǒng)。基于多模態(tài)智能機(jī)器人的交互身份鑒別與跟蹤方法,包括:采集交互對(duì)象的多通道信息;采用深度神經(jīng)網(wǎng)絡(luò)提取激活特征,構(gòu)成多通道交互信息的多模態(tài)特征;采用跨模態(tài)概率認(rèn)知的集成學(xué)習(xí),對(duì)人臉圖像特征和聲紋特征進(jìn)行身份鑒別;對(duì)由跨模態(tài)屬性鑒別出的交互者身份進(jìn)行注冊和跟蹤。基于多模態(tài)智能機(jī)器人的交互身份鑒別與跟蹤系統(tǒng),包括:多通道信息采集模塊;多模態(tài)特征提取模塊;跨模態(tài)身份鑒別模塊;交互對(duì)象注冊跟蹤模塊。本發(fā)明可解決單模態(tài)信息缺失,無法識(shí)別和跟蹤交互身份問題。
技術(shù)領(lǐng)域
本發(fā)明屬于智能機(jī)器人領(lǐng)域,具體涉及用于智能對(duì)話機(jī)器人的多模態(tài)的鑒別和跟蹤交互者身份的方法,尤其涉及基于多模態(tài)智能機(jī)器人的交互身份鑒別與跟蹤方法及系統(tǒng)。
背景技術(shù)
隨著計(jì)算機(jī)技術(shù)和人工智能的發(fā)展,智能機(jī)器人的研究已經(jīng)逐步走到眾多的服務(wù)領(lǐng)域。人機(jī)交互是智能對(duì)話機(jī)器人研究的重要技術(shù)問題,用戶在與對(duì)話機(jī)器進(jìn)行交互時(shí),只有智能對(duì)話機(jī)器人識(shí)別和記憶參與交互的對(duì)話者信息,才能有效地理解對(duì)話或交互含義。同時(shí)交互參與者的歷史信息記錄了用戶的興趣等信息,交互者的上下文信息也為智能機(jī)器人進(jìn)一步?jīng)Q策提供參考。
現(xiàn)有的智能機(jī)器人的人機(jī)對(duì)話技術(shù)一般不考慮交互者的身份信息和上下文信息,非常不利于人機(jī)的后續(xù)對(duì)話進(jìn)行。現(xiàn)有智能機(jī)器人的交互身份識(shí)別一般采用單模態(tài)進(jìn)行,當(dāng)對(duì)應(yīng)模態(tài)信息缺失時(shí),無法有效地實(shí)時(shí)跟蹤交互者身份信息。
發(fā)明內(nèi)容
本發(fā)明的目的是為了解決智能機(jī)器人的多模態(tài)身份識(shí)別問題,提供對(duì)話智能機(jī)器人的多模態(tài)的鑒別和跟蹤交互者身份的方法及系統(tǒng),可解決單模態(tài)信息缺失,無法識(shí)別和跟蹤交互身份問題。
為了實(shí)現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案:
一種基于多模態(tài)智能機(jī)器人的交互身份鑒別與跟蹤方法,包括以下步驟:
步驟1:采集交互對(duì)象的多通道信息;
步驟2:采用深度神經(jīng)網(wǎng)絡(luò)提取激活特征,構(gòu)成多通道交互信息的多模態(tài)特征;
步驟3:采用跨模態(tài)概率認(rèn)知的集成學(xué)習(xí),對(duì)人臉圖像特征和聲紋特征進(jìn)行身份鑒別;
步驟4:對(duì)由跨模態(tài)屬性鑒別出的交互者身份進(jìn)行注冊和跟蹤。
優(yōu)選地,所述步驟1包括以下步驟:
步驟11:采集交互者的聲紋和語音信息;
步驟12:采集交互者的人臉RGB圖像和肢體信息;
步驟13:采集交互者的人臉紅外圖像;
步驟14:采集交互者的人臉深度圖像和肢體動(dòng)作。
優(yōu)選地,所述步驟2包括以下步驟:
步驟21:對(duì)語音信息做短時(shí)傅立葉變換生成聲譜圖,利用聲紋深度信念網(wǎng)絡(luò)提取聲譜圖的激活特征構(gòu)造語音的聲紋特征;
步驟22:對(duì)采集的人臉RGB圖像、人臉紅外圖像和人臉深度圖像進(jìn)行配準(zhǔn),構(gòu)成復(fù)合人臉圖像,采用人臉深度卷積網(wǎng)絡(luò)提取復(fù)合人臉的圖像特征。
優(yōu)選地,所述步驟3包括以下步驟:
步驟31:提取時(shí)間和空間上下文;
步驟32:檢索與輸入多模態(tài)屬性特征相似的交互身份知識(shí)圖譜;
步驟33:在交互身份的時(shí)間和空間上下文及知識(shí)圖譜先驗(yàn)下,采用概率認(rèn)知集成聲紋和人臉圖像特征,實(shí)現(xiàn)交互者的跨模態(tài)身份鑒別。
優(yōu)選地,所述步驟4包括以下步驟:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于河南大學(xué),未經(jīng)河南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711110949.7/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 用于智能機(jī)器人系統(tǒng)多模態(tài)輸出的方法及裝置
- 一種基于深度學(xué)習(xí)的多模態(tài)醫(yī)學(xué)影像識(shí)別方法及裝置
- 一種基于多模態(tài)生成式對(duì)抗網(wǎng)絡(luò)的云圖分類方法
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 一種有監(jiān)督的快速離散多模態(tài)哈希檢索方法和系統(tǒng)
- 一種多模態(tài)數(shù)據(jù)處理方法及系統(tǒng)
- 一種基于多模態(tài)學(xué)習(xí)的電力攻擊識(shí)別方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應(yīng)用該系統(tǒng)的方法
- 一種基于門機(jī)制多模態(tài)融合的情感分析方法
- 面向?qū)捰蝻w行的多模態(tài)精確劃分方法





