[發(fā)明專(zhuān)利]一種基于雙判別器生成對(duì)抗網(wǎng)絡(luò)的唇語(yǔ)識(shí)別方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 202110772322.8 | 申請(qǐng)日: | 2021-07-08 |
| 公開(kāi)(公告)號(hào): | CN113239902B | 公開(kāi)(公告)日: | 2021-09-28 |
| 發(fā)明(設(shè)計(jì))人: | 劉麗;張成偉;張雪毅;薛桂香;趙雨 | 申請(qǐng)(專(zhuān)利權(quán))人: | 中國(guó)人民解放軍國(guó)防科技大學(xué) |
| 主分類(lèi)號(hào): | G06K9/00 | 分類(lèi)號(hào): | G06K9/00;G06K9/62;G06T17/00;G06N3/04 |
| 代理公司: | 北京風(fēng)雅頌專(zhuān)利代理有限公司 11403 | 代理人: | 曾志鵬 |
| 地址: | 410003 湖*** | 國(guó)省代碼: | 湖南;43 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 判別 生成 對(duì)抗 網(wǎng)絡(luò) 識(shí)別 方法 裝置 | ||
本申請(qǐng)涉及一種基于雙判別器生成對(duì)抗網(wǎng)絡(luò)的唇語(yǔ)識(shí)別方法及裝置,該方法包括:從視頻中導(dǎo)出不同角度的人臉圖片,根據(jù)所述人臉圖片中不同的頭部偏轉(zhuǎn)角度得到唇部多角度數(shù)據(jù)集;并根據(jù)唇部多角度數(shù)據(jù)集得到的生成器數(shù)據(jù)集、身份判別器數(shù)據(jù)集、角度判別器數(shù)據(jù)集,再生成對(duì)抗網(wǎng)絡(luò)數(shù)據(jù)模型;利用所述對(duì)抗網(wǎng)絡(luò)數(shù)據(jù)模型對(duì)待識(shí)別的視頻進(jìn)行唇語(yǔ)識(shí)別,轉(zhuǎn)換得到0°唇部圖像;從所述0°唇部圖像提取唇部特征向量,對(duì)所述唇部特征向量進(jìn)行建模分類(lèi),得到唇部分類(lèi)結(jié)果,根據(jù)所述唇部分類(lèi)結(jié)果導(dǎo)出識(shí)別語(yǔ)言。本發(fā)明實(shí)施例具有和真實(shí)環(huán)境相似的視覺(jué)效果,可以很好的指導(dǎo)模型適應(yīng)實(shí)際應(yīng)用環(huán)境,進(jìn)一步提升唇語(yǔ)識(shí)別模型的準(zhǔn)確率。
技術(shù)領(lǐng)域
本申請(qǐng)涉及人工智能領(lǐng)域,特別是涉及一種基于雙判別器生成對(duì)抗網(wǎng)絡(luò)的唇語(yǔ)識(shí)別方法及裝置。
背景技術(shù)
唇語(yǔ)識(shí)別是一項(xiàng)結(jié)合計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理的復(fù)雜任務(wù),可以用來(lái)自動(dòng)推斷視覺(jué)和聽(tīng)覺(jué)信息包含的文字內(nèi)容,具有很廣的應(yīng)用價(jià)值,如從無(wú)聲監(jiān)控視頻或電影中恢復(fù)語(yǔ)音。最近幾年,唇語(yǔ)識(shí)別的發(fā)展主要受以下兩方面的推動(dòng):首先是深度學(xué)習(xí)技術(shù)的快速發(fā)展,這是一種源于神經(jīng)科學(xué)的技術(shù),在圖像處理,語(yǔ)言模型等領(lǐng)域都取得了巨大的成功。其次是大型數(shù)據(jù)集的提出,他們?yōu)榇秸Z(yǔ)識(shí)別提供了大量的訓(xùn)練數(shù)據(jù)和復(fù)雜的環(huán)境變化,極大地促進(jìn)了唇語(yǔ)識(shí)別的發(fā)展。
大多數(shù)的唇語(yǔ)識(shí)別模型包含前端特征提取模型和后端分類(lèi)模型。前端特征提取模型主要負(fù)責(zé)提取序列的每一幀的特征和每幀之間的變化特征。后端分類(lèi)模型主要負(fù)責(zé)從前端模型輸出的特征向量中學(xué)習(xí)整個(gè)序列的模式變化。但在特征提取階段,大部分方法只采用簡(jiǎn)單的數(shù)據(jù)預(yù)處理,如隨機(jī)裁切,水平翻轉(zhuǎn),增加對(duì)比度等,這些預(yù)處理方法只能一定程度上緩解過(guò)擬合問(wèn)題,并不能很好的解決說(shuō)話者狀態(tài)如面部偏轉(zhuǎn)等對(duì)特征提取的影響。
發(fā)明內(nèi)容
基于此,有必要針對(duì)上述技術(shù)問(wèn)題,提供一種基于雙判別器生成對(duì)抗網(wǎng)絡(luò)的唇語(yǔ)識(shí)別方法及裝置。
第一方面,本發(fā)明實(shí)施例提供了一種基于雙判別器生成對(duì)抗網(wǎng)絡(luò)的唇語(yǔ)識(shí)別方法,包括以下步驟:
從視頻中導(dǎo)出不同角度的人臉圖片,根據(jù)所述人臉圖片中不同的頭部偏轉(zhuǎn)角度得到唇部多角度數(shù)據(jù)集;
根據(jù)所述唇部多角度數(shù)據(jù)集得到生成器數(shù)據(jù)集,并從所述唇部多角度數(shù)據(jù)集分別提取得到身份判別器數(shù)據(jù)集、角度判別器數(shù)據(jù)集、角度分類(lèi)數(shù)據(jù)集;
訓(xùn)練所述生成器數(shù)據(jù)集、身份判別器數(shù)據(jù)集、角度判別器數(shù)據(jù)集得到對(duì)抗網(wǎng)絡(luò)數(shù)據(jù)模型,訓(xùn)練所述角度分類(lèi)數(shù)據(jù)集得到角度分類(lèi)器;
利用所述角度分類(lèi)器對(duì)待識(shí)別的視頻進(jìn)行唇語(yǔ)識(shí)別,得到第一唇部圖像,利用所述對(duì)抗網(wǎng)絡(luò)數(shù)據(jù)模型轉(zhuǎn)換所述第一唇部圖像得到0°唇部圖像;
從所述0°唇部圖像提取唇部特征向量,對(duì)所述唇部特征向量進(jìn)行建模分類(lèi),得到唇部分類(lèi)結(jié)果,根據(jù)所述唇部分類(lèi)結(jié)果導(dǎo)出識(shí)別語(yǔ)言。
進(jìn)一步的,所述從視頻中導(dǎo)出不同角度的人臉圖片,根據(jù)所述人臉圖片中不同的頭部偏轉(zhuǎn)角度得到唇部多角度數(shù)據(jù)集,包括:
將視頻中人臉圖片按照不同角度進(jìn)行的每一幀拆分,得到每一幀的正視圖,左視圖,右視圖組成的三視圖圖片;
使用人臉建模工具和所述三視圖圖片對(duì)每一幀面部圖像進(jìn)行人臉建模,導(dǎo)出人臉模型;
對(duì)所述人臉模型的不同角度對(duì)應(yīng)的視圖,使用標(biāo)注工具標(biāo)注特征點(diǎn),定位唇部區(qū)域,裁切出唇部區(qū)域,得到唇部多角度數(shù)據(jù)集。
進(jìn)一步的,所述根據(jù)所述人臉圖片得到生成器數(shù)據(jù)集,從所述唇部多角度數(shù)據(jù)集分別提取得到身份判別器數(shù)據(jù)集、角度判別器數(shù)據(jù)集、角度分類(lèi)數(shù)據(jù)集,包括:
使用頭部姿態(tài)估計(jì)算法對(duì)所述唇部多角度數(shù)據(jù)集的人臉進(jìn)行處理,得到人臉的偏轉(zhuǎn)角度;
根據(jù)所述唇部多角度數(shù)據(jù)集中的隨機(jī)選取不同的人臉圖片,并標(biāo)記每張人臉圖片的說(shuō)話者身份和偏轉(zhuǎn)角度;
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于中國(guó)人民解放軍國(guó)防科技大學(xué),未經(jīng)中國(guó)人民解放軍國(guó)防科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110772322.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 判別設(shè)備、判別方法和計(jì)算機(jī)程序
- 物體檢測(cè)裝置以及物體檢測(cè)方法
- 圖像處理裝置以及圖像處理方法
- 模擬傳感器的種類(lèi)判別裝置
- 一種水電站砂層土質(zhì)液化評(píng)判方法
- 基于CNN神經(jīng)網(wǎng)絡(luò)的急性心肌梗死定性自動(dòng)判別系統(tǒng)
- 一種基于CNN神經(jīng)網(wǎng)絡(luò)的急性心肌梗死定位自動(dòng)判別系統(tǒng)
- 一種活體人臉的判別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 糖網(wǎng)病眼底圖像的樣本數(shù)據(jù)標(biāo)注系統(tǒng)
- 一種循環(huán)漸進(jìn)式局部放電判別方法
- 農(nóng)業(yè)信息對(duì)抗資源目標(biāo)規(guī)劃最優(yōu)分配方法
- 農(nóng)業(yè)信息對(duì)抗資源模糊規(guī)劃最優(yōu)分配方法
- 農(nóng)業(yè)信息對(duì)抗資源線性規(guī)劃最優(yōu)分配方法
- 基于聚類(lèi)數(shù)據(jù)挖掘的對(duì)抗行為搜索算法
- 面向多種對(duì)抗圖片攻擊的協(xié)同免疫防御方法
- 一種自適應(yīng)對(duì)抗強(qiáng)度的對(duì)抗訓(xùn)練方法
- 對(duì)抗攻擊模型的訓(xùn)練方法及裝置
- 對(duì)抗樣本的生成方法和裝置
- 多樣本對(duì)抗擾動(dòng)生成方法、裝置、存儲(chǔ)介質(zhì)和計(jì)算設(shè)備
- 一種無(wú)人集群協(xié)同博弈對(duì)抗的控制方法及系統(tǒng)





