[發明專利]一種基于生成對抗網絡和時間卷積網絡的唇語識別方法有效
| 申請號: | 202110262815.7 | 申請日: | 2021-03-11 |
| 公開(公告)號: | CN112818950B | 公開(公告)日: | 2022-08-23 |
| 發明(設計)人: | 張成偉;趙昊天;張滿囤;齊暢;崔時雨 | 申請(專利權)人: | 河北工業大學 |
| 主分類號: | G06V40/16 | 分類號: | G06V40/16;G06V10/764;G06V10/44;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 天津翰林知識產權代理事務所(普通合伙) 12210 | 代理人: | 王瑞 |
| 地址: | 300130 天津市紅橋區*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 生成 對抗 網絡 時間 卷積 識別 方法 | ||
本發明公開了一種基于生成對抗網絡和時間卷積網絡的唇語識別方法。該方法首先通過ResNet角度分類器判斷唇部偏轉角度,之后利用的GAN二階段轉換器進行唇部矯正,最后送入TCN中進行特征識別分類生成唇語識別結果的高精度唇語識別方法;該方法克服了傳統卷積模型無法解決的唇部特征提取受實際環境中光照強度、光照角度、識別角度、說話人身份等不確定性的影響,使唇語識別的準確性顯著提高。本方法設計了密集多角度唇部變化原始數據,不僅實現了單個攝像機自身圖像的連續,而且最大限度地實現了唇部圖像在觀測范圍內的連續,有效解決現有多角度模型無法處理實際環境中連續變化的唇部圖像的問題,從而提高唇語識別精度。
技術領域
本發明屬于人工智能和深度學習領域,具體是一種基于生成對抗網絡和時間卷積網絡的唇語識別方法。
背景技術
隨著科學技術的發展和硬件制造水平的提升,計算機所能處理的信息量也在成指數級增長,這使得以深度學習為基礎的人工智能技術進入快速發展階段,人工智能技術已經越來越廣的應用到了人們的日常生活中,潛移默化地改變著人們的生產生活方式,成為人類社會中不可缺少的重要技術之一。人工智能技術的應用場景涵蓋生產生活的各個方面,包括語音識別、智能醫療、機器視覺、智能問答系統、無人駕駛等。人工智能技術在這些領域取得的成功以及積累的經驗更加推進了社會對于這一新興技術的關注,加速人工智能技術的發展。
唇語識別是人工智能技術的一個重要應用領域,在社會生產生活的諸多領域具有舉足輕重的地位,有非常廣的應用前景,例如:
1.基于唇部特征的活體檢測:在一些需要身份驗證的場景中往往需要確定對象的真實生理特征,對象需要完成轉動頭部、眨眼、讀出一段話等一系列指定動作來完成驗證對象是否為真實的活體人體。使用人臉關鍵點檢測技術以及唇語識別等方式可以有效規避照片、視頻、換臉、面部遮擋等常見的逃避檢測的方式,從而幫助用戶免受欺詐行為的危害,保障使用者的權益。
2.輔助聽障人士交流:聽障人士包括先天性遺傳或后天人為因素造成的聽力受損的殘疾人,他們無法聽到或無法發出聲音,在生活中與他人交流十分不便。通過使用搭載唇語識別技術的交流輔助裝置,滿足聽障人士的交流需求。
目前的唇語識別模型按識別等級分為字母級、單詞級和句子級三類模型,他們大多都采用序列到序列(sequence2sequence,seq2seq)模型進行序列建模識別,并使用連續時序分類(Connectionist Temporal Classification,CTC)算法作為衡量預測結果準確性的標準。seq2seq模型的作用是將連續的唇部特征序列作為輸入,通過編碼器(encoder)和解碼器(decoder)將輸入的特征序列進行時序編碼解碼。唇語識別任務的一大難點是唇部圖像的上下文聯系較強,但seq2seq模型往往采用的是順序上下文聯系的機制,因此并不能很好地處理唇部變化序列中的上下文關系。
之后出現了基于注意力機制(attention)的改進版序列模型,在機器翻譯、智能問答系統等具有短句上下文依賴的應用場景中取得了令人滿意的結果。但是唇語識別任務處理的是較長的連續圖像序列,上下文聯系更加緊密,時間維度的跨度更大,而attention機制在唇語識別任務中的精度仍然有待提升。唇語識別任務的另一大難點是唇部特征往往受角度、光照、說話人身份影響,特征提取面臨很大的不確定性。大部分識別模型都采用了基于殘差網絡(Residual Network,ResNet)的特征提取器,這種特征提取器在實驗室條件下的效果較好,但直接在實際環境中應用卻表現不佳。
發明內容
針對現有技術的不足,本發明擬解決的技術問題是,提供一種基于生成對抗網絡和時間卷積網絡的唇語識別方法。
本發明解決所述技術問題的技術方案是,提供一種基于生成對抗網絡和時間卷積網絡的唇語識別方法,其特征在于,該方法包括以下步驟:
S1、制作原始數據;所述原始數據包括識別網絡原始數據和密集多角度唇部變化原始數據;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河北工業大學,未經河北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110262815.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種連續氣液固反應器
- 下一篇:一種拍打門制造工藝及拍打門





