[發(fā)明專利]一種應(yīng)用于地空通信的話音識別方法在審
| 申請?zhí)枺?/td> | 201910213205.0 | 申請日: | 2019-03-20 |
| 公開(公告)號: | CN110189746A | 公開(公告)日: | 2019-08-30 |
| 發(fā)明(設(shè)計)人: | 姚元飛;王群;陳洪瑀 | 申請(專利權(quán))人: | 成都天奧信息科技有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L15/14;G10L15/22;G10L15/26;G10L21/0208;G10L21/0216;G10L25/24 |
| 代理公司: | 成都行之專利代理事務(wù)所(普通合伙) 51220 | 代理人: | 熊曦 |
| 地址: | 610000 四川省*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 地空通信 告警提示 話音識別 關(guān)鍵詞文本 話音信號 聲學(xué)模型 語音命令 管制 音素 檢測 詞匯 文本 語音增強(qiáng)算法 最大后驗概率 背景噪聲 地空通話 話音命令 語音增強(qiáng) 不一致 可識別 輸入地 比對 檢出 預(yù)設(shè) 去除 應(yīng)用 通話 敏感 改進(jìn) | ||
本發(fā)明公開了一種應(yīng)用于地空通信的話音識別方法,包括:建立地空通話三音素聲學(xué)模型;通過改進(jìn)的最大后驗概率語音增強(qiáng)算法,對接收到的待識別的地空通信話音信號進(jìn)行語音增強(qiáng)、去除背景噪聲處理;將處理后的待識別地空通信話音信號,輸入地空通話三音素聲學(xué)模型進(jìn)行識別,識別出管制員和飛行員的語音命令文本和關(guān)鍵詞文本,當(dāng)識別出的管制員與飛行員的語音命令文本不一致時進(jìn)行告警提示;通過關(guān)鍵詞檢出模型對識別出的關(guān)鍵詞文本進(jìn)行檢測,當(dāng)檢測到預(yù)設(shè)詞匯時進(jìn)行告警提示;本方法可識別管制人員和飛行員之間的話音命令并進(jìn)行比對,還可以檢測敏感詞匯并告警提示,并且能夠提高話音識別率。
技術(shù)領(lǐng)域
本發(fā)明涉及地空通信領(lǐng)域,具體地,涉及一種應(yīng)用于地空通信的話音識別方法。
背景技術(shù)
地空通信主要應(yīng)用于管制員與飛行員之間的通話,是確保飛機(jī)飛行安全的核心部分。由于交通管制人員工作強(qiáng)度大,注意力需高度集中,在通話環(huán)境惡劣的情況下很容易錯誤理解聽到的話音,從而導(dǎo)致發(fā)出錯誤的交通管制命令,極大的影響飛行安全。地空通信話音識別技術(shù)可以自動識別管制員和飛行員之間的通話,監(jiān)測管制員和飛行員的行為,對由錯誤指令造成的危險進(jìn)行告警,可極大的保證飛行安全。
地空通信話音識別技術(shù)雖然是一種有效保證飛行安全的方法之一,但目前大多數(shù)地空通信系統(tǒng)是沒有使用話音識別技術(shù)的,由于地空通信的通話方式在發(fā)音,語調(diào)等方面具有特殊性,所以無法直接使用目前通用的話音識別技術(shù)。此外,由于地空通信受周圍環(huán)境影響,通話過程中會帶有部分噪聲干擾,導(dǎo)致地空對話識別難度大。
目前現(xiàn)有的通用話音識別技術(shù)是不適合應(yīng)用到地空通信系統(tǒng)中的。由于地空通話在發(fā)音和語法上又具有其特殊性,需要根據(jù)其對話特點,發(fā)音語調(diào)等重新建立一個專有的地空通話聲學(xué)模型,所以目前市場上并沒有針對地空通信系統(tǒng)的話音識別技術(shù)。
話音識別是需要將錄制好的純凈話音信號經(jīng)過訓(xùn)練得到聲學(xué)模型,然后再將待識別信號經(jīng)過相同處理與訓(xùn)練好的聲學(xué)模型進(jìn)行匹配最終得到識別結(jié)果,由于地空通信的話音信號時刻受外界環(huán)境的干擾,會夾雜著很多噪聲信號,這些帶有噪聲的話音信號不僅會引起聽覺不適,導(dǎo)致管制人員或飛行人員產(chǎn)生聽覺疲勞,注意力下降,而且還會使話音信號失真、話音的特征參數(shù)發(fā)生改變,不能與聲學(xué)模型匹配導(dǎo)致最終的識別結(jié)果錯誤。目前通用的解決方案是在識別前端級聯(lián)一個語音增強(qiáng)算法以提高話音可懂度。具體流程圖如圖1所示。
隱馬爾科夫模型(HMM),隱馬爾科夫模型被廣泛的應(yīng)用在語音信號處理領(lǐng)域。一個HMM可以通過來θ={A,B,M,O,π,F(xiàn)}來描述。其中A為有N個狀態(tài)的有限集,B是觀察序列集,M是轉(zhuǎn)移狀態(tài)概率,O是輸出觀測概率矩陣,為初始概率序列,F(xiàn)是終止?fàn)顟B(tài)序列。基于隱馬爾科夫的聲學(xué)建模首先是通過前后向算法和遞推算法計算已知模型的輸出和該初始模型的輸出序列的概率,在通過利用Baum Welch算法和最大似然準(zhǔn)則對模型進(jìn)行校準(zhǔn),最后用維特比算法進(jìn)行解碼得到識別結(jié)果。隱馬爾科夫模型針對小詞匯量孤立詞話音識別有較高的識別率,但要處理地空通話這類大詞匯量連續(xù)話音識別,其識別的魯棒性就會明顯下降。
語音增強(qiáng)算法
傳統(tǒng)方法:
目前在通用的語音增強(qiáng)算法多為改進(jìn)的譜減法或維納濾波器,雖然其結(jié)構(gòu)簡單方便實現(xiàn),可提升帶噪話音的信噪比,但卻往往會引入其他的噪聲,導(dǎo)致話音失真。雖然這種方法能有效改善人耳的聽覺舒適度,但卻不適用話音識別前端。
最小均方誤差算法:
基于最大后驗概率(Maximum a posteriori,MAP)的語音增強(qiáng)算法相相比譜減法和維納濾波算法,其表現(xiàn)為不僅能有效去除背景噪聲,而且還不會引入其他噪聲干擾。假設(shè)信號為y(n)=x(n)+d(n),經(jīng)過分幀加漢明窗后,求傅里葉變換(FFT)得到:
Y(k,τ)=x(k,τ)+D(k) (1)
其中k為第τ幀的頻點,x(n)為純凈語音信號,d(n)為噪聲。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于成都天奧信息科技有限公司,未經(jīng)成都天奧信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910213205.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于關(guān)鍵詞的文本的標(biāo)簽提取方法及裝置
- 一種文本處理方法、裝置及計算設(shè)備
- 一種確定內(nèi)鏈關(guān)鍵詞的方法和裝置
- 短文本分類模型的生成方法、分類方法、裝置及存儲介質(zhì)
- 一種文檔信息提取方法、存儲介質(zhì)及終端
- 一種關(guān)鍵詞提取方法和裝置
- 圖像推送方法、裝置、電子設(shè)備和存儲介質(zhì)
- 文本關(guān)鍵詞提取方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 一種關(guān)鍵詞提取方法、裝置、終端以及存儲介質(zhì)
- 一種游戲事件文本中關(guān)鍵詞跳轉(zhuǎn)的方法及其系統(tǒng)





