[發明專利]一種中文唇語識別建模單元集的構建方法在審
| 申請號: | 202110017780.0 | 申請日: | 2021-01-07 |
| 公開(公告)號: | CN112766101A | 公開(公告)日: | 2021-05-07 |
| 發明(設計)人: | 袁家斌;何珊 | 申請(專利權)人: | 南京航空航天大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/04;G06N3/08 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 陳國強 |
| 地址: | 210016 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中文 識別 建模 單元 構建 方法 | ||
本發明公開一種中文唇語識別建模單元集的構建方法,包括以下步驟,首先,對中文發音的聲學特點和發音原理進行研究;然后,總結了幾種常見的中文唇語識別建模單元集,包括詞、音節、聲韻母和中文音素,并給出它們各自的優缺點和適用性;最終,基于現存建模單元集的不足并通過對于中文發音視覺特點進行分析,提出了一個新的建模單元集——“視覺拼音”。本發明實施于中文唇語識別,相比于其他的建模單元集,采用本發明的技術方案將通過降低識別維度,有效減少中文發音的視覺歧義性,進而提高中文唇語識別準確率。
技術領域
本發明屬于唇語識別技術領域,具體涉及一種中文唇語識別建模單元集的構建方法。
背景技術
隨著人工智能的發展,深度學習技術逐漸崛起并開始滲透到人們生活的方方面面,其在大數據處理、音視頻處理和自然語言處理等領域均取得了矚目的進展并與人類的生產生活緊密結合。而且隨著技術發展和現實需要,深度學習早已不再局限于解決單一領域問題,而是開始追求多領域、多技術的融合研究。因此,利用深度學習進行多領域、多技術的融合研究是大勢所趨,且非常具有現實意義。而唇語識別便是這樣一種融合了圖像識別、語音識別和自然語言識別等多領域技術的研究課題,由于這些領域的技術在飛速發展,為唇語識別的研究提供了有力的技術支持,同時,唇語識別的研究也在推動著這些領域交叉融合。
唇語識別技術及其應用是目前國際上研究的熱門課題之一,由于其非常具有實用性,能為很多場景帶來便利并發揮輔助性作用,因此這種自動化應用將擁有巨大的市場經濟價值,具有廣闊的應用前景:復雜環境下的語音識別、反作弊與活體檢測、口型矯正、輔助聽障人士正常交流和識別無聲視頻中的內容等。
唇語識別同語音識別一樣,在建模之前要選取合適的建模單元集,建模單元集的合理與否與模型的識別率直接相關。一般來說,建模單元集的選取和構建通常需要考慮到以下幾項原則:代表性、可訓練性和推廣性。即構建的建模單元集要能夠準確且有代表性地描述出任何語句序列,且有足夠多的數據能夠對建模單元進行可靠預測,同時還要兼具可沿用性,易于表達新詞。
中文唇語識別研究起步相對較晚,雖然中文唇語識別研究已經有了一些成果,但相較于英文還是存在不小的落差。主要原因在于中英文的發音規則有著非常大的差別,因此,探索合適的建模單元集對中文唇語識別工作有著非常大的意義和作用。
發明內容
為了解決現有技術中的問題,本發明提出一種中文唇語識別建模單元集的構建方法。為了使唇語識別方法與中文更加適配,也為了提升其識別率,提出了“視覺拼音”這一概念,視覺拼音本質上就是中文發音的視覺呈現,通過對唇形表達上易混淆的發音口型,最終映射得到的結果就被命名為視覺拼音。視覺拼音的引進更有助于中文唇語視頻的解析,使得唇語識別的準確率更高。
為實現上述目的,本發明采用的技術方案為:
一種中文唇語識別建模單元集的構建方法,包括以下步驟:
步驟1,總結出若干種常見的中文唇語識別建模單元集,分析得到的若干種建模單元集各自的優缺點和適用性,得到其中表現最好的建模單元集,即中文音素;
步驟2,結合中文發音的視覺特點和步驟1提到的中文音素,建立一個名稱為視覺拼音的中文唇語識別建模單元集;
步驟3,為了確定步驟2中的視覺拼音組成,首先將64×80像素的唇部視頻幀序列輸入到一個10層的卷積神經網絡,提取得到512維的嘴唇特征向量;
步驟4,以步驟1提到的中文音素作為建模單元,將步驟3得到的嘴唇特征向量輸入到帶有注意機制的序列到序列模型,得到中文音素序列;
步驟5,重復步驟3和步驟4,為預測得到的中文音素序列和與之對應的目標中文音素序列建立混淆矩陣,對中文音素的混淆程度進行歸類;
步驟6,通過對中文發音規律的總結,在步驟5所得歸類結果的基礎上進行補充和調整,得到最終的視覺拼音;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京航空航天大學,未經南京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110017780.0/2.html,轉載請聲明來源鉆瓜專利網。





