[發明專利]一種全端到端的中英文混合空管語音識別方法及裝置有效
| 申請號: | 202011147669.5 | 申請日: | 2020-10-23 |
| 公開(公告)號: | CN112420024B | 公開(公告)日: | 2022-09-09 |
| 發明(設計)人: | 林毅;楊波;張建偉 | 申請(專利權)人: | 四川大學 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/02;G10L15/00;G10L15/20;G10L19/04;G10L25/30 |
| 代理公司: | 四川力久律師事務所 51221 | 代理人: | 馮精恒 |
| 地址: | 610065 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 全端到端 中英文 混合 語音 識別 方法 裝置 | ||
本發明涉及民用航空空中交通管制和語音識別領域,特別是一種全端到端的中英文混合空管語音識別方法及裝置。本發明通過特征學習模塊預先提取語音特征,使所述中英文混合空管語音識別模型能提取出更具鑒別性的語音特征,更好地適應不同場景下的語音信號;在原始語音信號到可讀指令文本的處理范式中,運用統一的框架解決中英文混合語音識別問題,可以避免現有獨立識別系統中語種屬性判斷環節,簡化了混合語音識別的系統架構,也使得語音特征能更合理有效的應用到所述模型的識別中,從而準確判定發音和詞義,提高了混合語音識別性能及其實用性。
技術領域
本發明涉及民用航空空中交通管制和語音識別領域,特別是一種全端到端的中英文混合空管語音識別方法及裝置。
背景技術
在民用航空空中交通管制領域,管制員與飛行員之間通過無線電電臺以語音通話的方式進行實時的溝通和協調以保證局部空中交通運行安全。在目前管制體制中,管制通話語音通過VHF(甚高頻Very High Frequency)傳輸,其可靠性極大地影響了管制通話語音的質量,進而影響語音識別的性能。此外,由于通信資源有限,管制員一般通過同一通信頻率與其管制扇區內的多個管制員進行通話。因此,同一通信頻率(信道)中的說話人、通信設備誤差、傳輸環境一直處于變化狀態,這也會導致通信信道中的語音特征處于變化狀態。所述的空管語音特點對語音識別的特征工程方法提出了巨大的挑戰,要求其能夠在不同傳輸條件下提取魯棒性的特征支撐語音識別模型。綜上所述,解決復雜空管環境下的語音特征表示是提高語音識別性能的關鍵步驟。
同時,按照國際民航組織相關規定,英語是空中交通管制的通用語言。我國民航管制由于歷史發展原因,管制員在指揮國內航班時一般使用中文通話,指揮國際航班時則使用英文通話。此外,我國民航管制過程中存在大量以英文命名的地標點、跑道號等詞匯,這些詞匯在管制過程中也需要使用英文通話表述。也就是說,我國民航管制過程中,同一管制指令會出現中英文混合通話的情況。例如,“echo echo八november charlie alpha兩前等國航四四五兩”。由于中英文屬于不同的語種,其發音和詞匯呈現出完全不同的特征。因此,研究具有相同尺度的中英文聲學建模是實現中英文混合識別的關鍵步驟;解決中英文詞匯分布的不均勻問題也是提高空管語音識別性能的必要手段;而中英文混合識別也是空管語音識別必要解決的關鍵技術問題。現有的語音識別方法一般針對單語種語音進行識別,且得到的語音信號質量差、特征分散,同時難以在中英文混合識別中準確判定發音和詞義的尺度。
鑒于上述問題,如今急需研究空管場景下中英文混合語音識別方法和模型結構及其訓練問題,并解決現有技術中語音信號質量差、特征分散以及中英文混合識別中的發音和詞義尺度問題,提高空管語音識別技術在應用和工程上的可用性以及可擴展性。
發明內容
本發明的目的在于克服現有技術中所存在的語音信號質量差、特征分散,同時難以在中英文混合識別中準確判定發音和詞義的尺度的問題,提供一種全端到端的中英文混合空管語音識別方法及裝置。
為了實現上述發明目的,本發明提供了以下技術方案:
一種全端到端的中英文混合空管語音識別方法,其特征在于,包括以下步驟:
a:采集空管語音并對所述空管語音進行預處理;其中,所述空管語音為中英文混合的音頻數據;
b:將所述空管語音輸入到預先建立的中英文混合空管語音識別模型;
c:輸出所述空管語音對應的指令信息;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川大學,未經四川大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011147669.5/2.html,轉載請聲明來源鉆瓜專利網。





