[發明專利]一種基于對抗生成網絡的唇形轉正方法在審
| 申請號: | 202110302713.3 | 申請日: | 2021-03-22 |
| 公開(公告)號: | CN113011564A | 公開(公告)日: | 2021-06-22 |
| 發明(設計)人: | 毛志煒;朱錚宇;王泳 | 申請(專利權)人: | 廣東技術師范大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06K9/00 |
| 代理公司: | 廣東有知貓知識產權代理有限公司 44681 | 代理人: | 胡強 |
| 地址: | 510665 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 對抗 生成 網絡 轉正 方法 | ||
本發明涉及一種基于對抗生成網絡的唇形轉正方法,其特征在于先構建基于生成對抗網絡的生成器網絡模型,所述生成器網絡模型包括生成器和判別器;然后進行數據預處理,在數據處理時在對數據進行灰度化處理的同時按視頻的幀率進行剪裁,最后都歸一化,統一數據類型和數據形狀大小;第三使用隨機梯度下降對交叉熵誤差進行訓練,以優化生成器和判別器的ADAM參數;最后,將待測數據輸入到訓練好的生成器網絡模型中,從而輸出唇形轉正后的結果。該方法從已有的少量特征,經過深度卷積對抗生成網絡生成目標圖像,從而有效獲取正面視圖作為視覺語音研究和應用。
技術領域
本發明屬于圖像處理中的圖像數據生成領域,具體是涉及一種基于對抗生成網絡的唇形轉正方法。
背景技術
隨著第三次科技革命的到來,人工智能技術飛速發展。語音作為其中重要的一大類,在日常生活中隨處可見,于此同時語音安全的問題不容忽視。在我國語音技術發展相對與發達國家還不夠完善,尤其是視覺語音識別方便的研究相對甚少。唇讀語音識別是近些年視覺語音研究又一熱門話題,通過判斷說話人發音過程中唇部的運動與音頻之間的聯系可以有效檢查出,音視頻是否同時錄制、出自同一人、同一句話。而適合唇讀語音識別的語料庫相對較少,無法滿足日益增長的唇讀語音識別方面的研究。
在已有的視覺語音研究當中,大多都是基于正面視圖的研究,取得了不錯成果,當視圖角度增大以后丟失的特征越來越多,視覺語音測試的準確率也隨之下降,也有研究者試圖從少量特征視圖中來提高視覺語音測試準確率,但效果不是明顯,本發明從數據出發,從源頭解決視角增大特征丟失問題。
近些年,隨著硬件水平的提高,也帶動了深度學習領域飛速發展。深度學習成為了繼人工智能、大數據又一熱門的詞匯。在深度學習領域,2014年基于自編碼器改進的對抗生成網絡的誕生,改變了傳統的機器學習方式,尤其在和卷積神經網絡融合之后。現如今,對抗生成網絡成為圖像處理領域繞不開的一個模型。本發明就是基于對抗生成網絡強大的生成能力與對抗思想,以復雜情況下多角度數據集重建正面唇性。
發明內容
本發明針對現有技術的不足,提供一種基于對抗生成網絡的唇形轉正方法;該方法從已有的少量特征,經過深度卷積對抗生成網絡生成目標圖像,從而有效獲取正面視圖作為視覺語音研究和應用。
為了達到上述目的,本發明一種基于對抗生成網絡的唇形轉正方法,主要包括以下步驟:
首先,構建基于生成對抗網絡的生成器網絡模型,所述生成器網絡模型包括生成器和判別器。
所述生成器左半部分為編碼結構,使用下采樣的方法提取圖像特征;生成器右半部分為解碼結構,使用上采用的方法把特征映射為圖像。
所述判別器為馬爾科夫判別器,由全卷積組成,最后以矩陣均值作為真假判斷輸出,從而輸出唇形轉正后的特征值。
其次,數據預處理,在數據處理時在對數據進行灰度化處理的同時按視頻的幀率進行剪裁,最后都歸一化,統一數據類型和數據形狀大小。
第三,使用隨機梯度下降對交叉熵誤差進行訓練,以優化生成器和判別器的ADAM參數。
最后,將待測數據輸入到訓練好的生成器網絡模型中,從而輸出唇形轉正后的結果。
作為上述方案的進一步改進,所述數據灰度化處理采用tensorflow工具里的平均值法,假設各通道讀取像素點的像素值為r,g,b,那么灰度值
假設樣本X(x1,x2,x3,…xi)xi為樣本X中像素點的值,xmin表示X中最小像素點值,xmax表示X中最大像素點值,歸一化[-1,1]之間的值
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東技術師范大學,未經廣東技術師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110302713.3/2.html,轉載請聲明來源鉆瓜專利網。





