[發(fā)明專(zhuān)利]一種基于雙判別器生成對(duì)抗網(wǎng)絡(luò)的唇語(yǔ)識(shí)別方法及裝置有效

申請(qǐng)?zhí)枺?/td>	202110772322.8	申請(qǐng)日：	2021-07-08
公開(kāi)（公告）號(hào)：	CN113239902B	公開(kāi)（公告）日：	2021-09-28
發(fā)明（設(shè)計(jì)）人：	劉麗;張成偉;張雪毅;薛桂香;趙雨	申請(qǐng)（專(zhuān)利權(quán)）人：	中國(guó)人民解放軍國(guó)防科技大學(xué)
主分類(lèi)號(hào)：	G06K9/00	分類(lèi)號(hào)：	G06K9/00;G06K9/62;G06T17/00;G06N3/04
代理公司：	北京風(fēng)雅頌專(zhuān)利代理有限公司 11403	代理人：	曾志鵬
地址：	410003 湖***	國(guó)省代碼：	湖南;43
權(quán)利要求書(shū)：	查看更多	說(shuō)明書(shū)：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于判別生成對(duì)抗網(wǎng)絡(luò) 識(shí)別方法裝置
鉆瓜網(wǎng) 技術(shù)展會(huì) 專(zhuān)利詞庫(kù) 專(zhuān)利權(quán)人專(zhuān)利榜在售專(zhuān)利公布日期熱門(mén)專(zhuān)利

【說(shuō)明書(shū)】：

本申請(qǐng)涉及一種基于雙判別器生成對(duì)抗網(wǎng)絡(luò)的唇語(yǔ)識(shí)別方法及裝置，該方法包括：從視頻中導(dǎo)出不同角度的人臉圖片，根據(jù)所述人臉圖片中不同的頭部偏轉(zhuǎn)角度得到唇部多角度數(shù)據(jù)集；并根據(jù)唇部多角度數(shù)據(jù)集得到的生成器數(shù)據(jù)集、身份判別器數(shù)據(jù)集、角度判別器數(shù)據(jù)集，再生成對(duì)抗網(wǎng)絡(luò)數(shù)據(jù)模型；利用所述對(duì)抗網(wǎng)絡(luò)數(shù)據(jù)模型對(duì)待識(shí)別的視頻進(jìn)行唇語(yǔ)識(shí)別，轉(zhuǎn)換得到0°唇部圖像；從所述0°唇部圖像提取唇部特征向量，對(duì)所述唇部特征向量進(jìn)行建模分類(lèi)，得到唇部分類(lèi)結(jié)果，根據(jù)所述唇部分類(lèi)結(jié)果導(dǎo)出識(shí)別語(yǔ)言。本發(fā)明實(shí)施例具有和真實(shí)環(huán)境相似的視覺(jué)效果，可以很好的指導(dǎo)模型適應(yīng)實(shí)際應(yīng)用環(huán)境，進(jìn)一步提升唇語(yǔ)識(shí)別模型的準(zhǔn)確率。

技術(shù)領(lǐng)域

本申請(qǐng)涉及人工智能領(lǐng)域，特別是涉及一種基于雙判別器生成對(duì)抗網(wǎng)絡(luò)的唇語(yǔ)識(shí)別方法及裝置。

背景技術(shù)

唇語(yǔ)識(shí)別是一項(xiàng)結(jié)合計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理的復(fù)雜任務(wù)，可以用來(lái)自動(dòng)推斷視覺(jué)和聽(tīng)覺(jué)信息包含的文字內(nèi)容，具有很廣的應(yīng)用價(jià)值，如從無(wú)聲監(jiān)控視頻或電影中恢復(fù)語(yǔ)音。最近幾年，唇語(yǔ)識(shí)別的發(fā)展主要受以下兩方面的推動(dòng)：首先是深度學(xué)習(xí)技術(shù)的快速發(fā)展，這是一種源于神經(jīng)科學(xué)的技術(shù)，在圖像處理，語(yǔ)言模型等領(lǐng)域都取得了巨大的成功。其次是大型數(shù)據(jù)集的提出，他們?yōu)榇秸Z(yǔ)識(shí)別提供了大量的訓(xùn)練數(shù)據(jù)和復(fù)雜的環(huán)境變化，極大地促進(jìn)了唇語(yǔ)識(shí)別的發(fā)展。

大多數(shù)的唇語(yǔ)識(shí)別模型包含前端特征提取模型和后端分類(lèi)模型。前端特征提取模型主要負(fù)責(zé)提取序列的每一幀的特征和每幀之間的變化特征。后端分類(lèi)模型主要負(fù)責(zé)從前端模型輸出的特征向量中學(xué)習(xí)整個(gè)序列的模式變化。但在特征提取階段，大部分方法只采用簡(jiǎn)單的數(shù)據(jù)預(yù)處理，如隨機(jī)裁切，水平翻轉(zhuǎn)，增加對(duì)比度等，這些預(yù)處理方法只能一定程度上緩解過(guò)擬合問(wèn)題，并不能很好的解決說(shuō)話者狀態(tài)如面部偏轉(zhuǎn)等對(duì)特征提取的影響。

發(fā)明內(nèi)容

基于此，有必要針對(duì)上述技術(shù)問(wèn)題，提供一種基于雙判別器生成對(duì)抗網(wǎng)絡(luò)的唇語(yǔ)識(shí)別方法及裝置。

第一方面，本發(fā)明實(shí)施例提供了一種基于雙判別器生成對(duì)抗網(wǎng)絡(luò)的唇語(yǔ)識(shí)別方法，包括以下步驟：

從視頻中導(dǎo)出不同角度的人臉圖片，根據(jù)所述人臉圖片中不同的頭部偏轉(zhuǎn)角度得到唇部多角度數(shù)據(jù)集；

根據(jù)所述唇部多角度數(shù)據(jù)集得到生成器數(shù)據(jù)集，并從所述唇部多角度數(shù)據(jù)集分別提取得到身份判別器數(shù)據(jù)集、角度判別器數(shù)據(jù)集、角度分類(lèi)數(shù)據(jù)集；

訓(xùn)練所述生成器數(shù)據(jù)集、身份判別器數(shù)據(jù)集、角度判別器數(shù)據(jù)集得到對(duì)抗網(wǎng)絡(luò)數(shù)據(jù)模型，訓(xùn)練所述角度分類(lèi)數(shù)據(jù)集得到角度分類(lèi)器；

利用所述角度分類(lèi)器對(duì)待識(shí)別的視頻進(jìn)行唇語(yǔ)識(shí)別，得到第一唇部圖像，利用所述對(duì)抗網(wǎng)絡(luò)數(shù)據(jù)模型轉(zhuǎn)換所述第一唇部圖像得到0°唇部圖像；

從所述0°唇部圖像提取唇部特征向量，對(duì)所述唇部特征向量進(jìn)行建模分類(lèi)，得到唇部分類(lèi)結(jié)果，根據(jù)所述唇部分類(lèi)結(jié)果導(dǎo)出識(shí)別語(yǔ)言。

進(jìn)一步的，所述從視頻中導(dǎo)出不同角度的人臉圖片，根據(jù)所述人臉圖片中不同的頭部偏轉(zhuǎn)角度得到唇部多角度數(shù)據(jù)集，包括：

將視頻中人臉圖片按照不同角度進(jìn)行的每一幀拆分，得到每一幀的正視圖，左視圖，右視圖組成的三視圖圖片；

使用人臉建模工具和所述三視圖圖片對(duì)每一幀面部圖像進(jìn)行人臉建模，導(dǎo)出人臉模型；

對(duì)所述人臉模型的不同角度對(duì)應(yīng)的視圖，使用標(biāo)注工具標(biāo)注特征點(diǎn)，定位唇部區(qū)域，裁切出唇部區(qū)域，得到唇部多角度數(shù)據(jù)集。

進(jìn)一步的，所述根據(jù)所述人臉圖片得到生成器數(shù)據(jù)集，從所述唇部多角度數(shù)據(jù)集分別提取得到身份判別器數(shù)據(jù)集、角度判別器數(shù)據(jù)集、角度分類(lèi)數(shù)據(jù)集，包括：

使用頭部姿態(tài)估計(jì)算法對(duì)所述唇部多角度數(shù)據(jù)集的人臉進(jìn)行處理，得到人臉的偏轉(zhuǎn)角度；

根據(jù)所述唇部多角度數(shù)據(jù)集中的隨機(jī)選取不同的人臉圖片，并標(biāo)記每張人臉圖片的說(shuō)話者身份和偏轉(zhuǎn)角度；

下載完整專(zhuān)利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶(hù)下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于中國(guó)人民解放軍國(guó)防科技大學(xué)，未經(jīng)中國(guó)人民解放軍國(guó)防科技大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110772322.8/2.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。

同類(lèi)專(zhuān)利

專(zhuān)利分類(lèi)

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06K 數(shù)據(jù)識(shí)別；數(shù)據(jù)表示；記錄載體；記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形，例如，指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正，例如，用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的，例如，由不同形狀的各個(gè)筆畫(huà)組成的，而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理，即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合

免登錄下載普通用戶(hù)下載升級(jí)VIP會(huì)員，免費(fèi)下載

專(zhuān)利文獻(xiàn)下載

說(shuō)明：

1、專(zhuān)利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專(zhuān)利說(shuō)明書(shū)；

2、支持發(fā)明專(zhuān)利、實(shí)用新型專(zhuān)利、外觀設(shè)計(jì)專(zhuān)利（升級(jí)中）；

3、專(zhuān)利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專(zhuān)利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】