[發明專利]基于深層時延神經網絡的藏語衛藏方言口語識別方法有效
| 申請號: | 202110183564.3 | 申請日: | 2021-02-08 |
| 公開(公告)號: | CN112951206B | 公開(公告)日: | 2023-03-17 |
| 發明(設計)人: | 魏建國;何銘;徐君海 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G10L15/00 | 分類號: | G10L15/00;G10L15/02;G10L15/06;G10L15/14;G10L15/16;G10L15/26;G10L25/24;G10L25/69 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 劉國威 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深層 神經網絡 藏語 方言 口語 識別 方法 | ||
本發明涉及深度學習、信號處理、語音識別、特征提取、發音學等技術領域,為針對藏語衛藏方言的口語應用場景,提升藏語衛藏方言口語識別模型的整體效果,本發明,基于深層時延神經網絡的藏語衛藏方言口語識別方法,采用三種藏語方言混合的音頻數據集,通過速度擾動、添加噪音和混響的方法對原始音頻數據集進行擴充,并利用擴充后的數據集基于開源的語音識別工具箱kaldi的鏈式chain模型訓練一個深層的時延神經網絡,作為藏語聲學模型,利用音頻數據中衛藏方言的部分對聲學模型進行第二次訓練,以獲得針對衛藏方言的深層的時延神經網絡聲學模型。本發明主要應用于藏語衛藏方言口語識別場合。
技術領域
本發明涉及深度學習、信號處理、語音識別、特征提取、發音學等技術領域,并將數據增廣技術與深度神經網絡技術進行結合,針對藏語衛藏方言口語類的應用場景,有針對性地對主要的聲學模型和語言模型部分進行訓練和調整,從而達到搭建一個效果較好的藏語衛藏方言口語語音識別系統的目的。
背景技術
當今時代,人工智能已經成為了科技行業研究的前沿和熱點,各項人工智能技術也逐漸開始落地,走進人們的生活,語音識別就是其中一個非常重要的技術領域。語音識別技術就是讓計算機聽到人的語言并轉化成其對應的文字內容的技術。這一技術的發展無疑改變了人類與計算機的交互方式,方便了人們的日常生活。
如今語音識別技術在漢語普通話、英語等資源較多的語種上已經獲得了較好的效果。然而,在如藏語、維吾爾語、地方方言等語言類型上,語音識別技術的發展還較為落后。其原因在于,藏語等小語種由于使用人數較為稀少,獲取技術研究所用的語料資源比較困難,成本很高,而且建立語音識別系統過程中往往需要較為專業的語言和發音方面的知識,導致研究這些小語種上語音識別技術的人才不足。已有的關于藏語識別的研究中,由于聲學數據和文本數據都較為稀少,所以一般直接利用藏語聲學數據訓練的聲學模型和語言模型效果都比較差。有的技術方案里,利用其他語言的聲學數據,如漢語、英語等訓練一個基礎模型,然后利用藏語聲學數據對網絡參數進行調整,可以使模型性能得到一些優化。但是由于源語言的發音特點與藏語語言的發音特點差異較大,所以這種技術方案得到的效果仍舊有待提高。
藏語語音識別技術的研究對于改變藏族地區居民生活條件、提升藏文化信息化建設,以及促進各民族之間文化的交流等都具有重要意義。本發明就是針對藏語目前資源較少、藏語識別技術發展較為落后的現狀,而提出的一種基于深層時延神經網絡的藏語衛藏方言口語識別模型的系統搭建技術方案。
發明內容
為克服現有技術的不足,本發明旨在提出一種新型的藏語語音識別系統模型搭建方案,主要針對的是藏語衛藏方言的口語應用場景,提升藏語衛藏方言口語識別模型的整體效果。為此,本發明采取的技術方案是,基于深層時延神經網絡的藏語衛藏方言口語識別方法,采用三種藏語方言混合的音頻數據集,通過速度擾動、添加噪音和混響的方法對原始音頻數據集進行擴充,并利用擴充后的數據集基于開源的語音識別工具箱kaldi的鏈式chain模型訓練一個深層的時延神經網絡,作為藏語聲學模型,利用音頻數據中衛藏方言的部分對聲學模型進行第二次訓練,以獲得針對衛藏方言的深層的時延神經網絡聲學模型;基于已有的有限的文本資源,分別使用口語類的藏文文本和新聞資訊類的藏語文本訓練兩個不同內容領域的N元語法N-gram語言模型,并按照1:1的比例進行插值,并且使用剪枝技術控制插值得到的模型的大小,得到藏文N-gram語言模型;將所述深層的時延神經網絡聲學模型、N-gram語言模型和發音詞典結合構成解碼器,之后再采用對口語類內容領域和新聞資訊類內容領域對應的兩個語言模型按照8:2的比例重新插值,獲得一個新的偏向于口語領域的語言模型,用來對解碼出的中間結果進行重打分,使得整體語言模型更加偏重于口語類的文法習慣,將訓練好的時延神經網絡聲學模型和N-gram語言模型、重打分語言模型組合成系統,得到最后針對藏語衛藏方言的口語領域語音識別模型。
具體步驟如下:
步驟一,準備藏語音頻數據集,使用增廣技術對其進行擴充;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110183564.3/2.html,轉載請聲明來源鉆瓜專利網。





