[發明專利]一種錄音文件自動校時方法在審

申請號：	201611218473.4	申請日：	2016-12-26
公開（公告）號：	CN106601241A	公開（公告）日：	2017-04-26
發明（設計）人：	蔣偉;王慶生;高瑞強	申請（專利權）人：	河南思維信息技術有限公司
主分類號：	G10L15/14	分類號：	G10L15/14;G10L21/0208;G06F17/30
代理公司：	鄭州中原專利事務所有限公司41109	代理人：	張春,李想
地址：	450001 河***	國省代碼：	河南;41
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種錄音文件自動時方
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及一種校時方法，尤其涉及一種錄音文件的校時方法。

背景技術

由于錄音文件是機車運行時現場錄制的音頻信號，其中存在鳴笛、乘務員回話、機車機械振動等非線性復雜噪聲信號，大大增加了語音識別的難度。采用傳統的梅爾倒譜頻率（MFCC）提取信號頻率特征和隱式馬爾科夫（HMM）算法進行識別難以準確識別LKJ語音報警信息。錄音筆由于其內在晶振的問題，錄音文件的時間與LKJ的基準時間軸之間往往存在偏差，無法進行音視頻聯動分析。

發明內容

本發明要解決的技術問題在于提供一種對機車上的錄音筆的文件進行自動校時的方法，以解決現有技術存在的問題。

為解決上述技術問題，本發明采用以下技術方案：

一種錄音文件自動校時方法，包括以下步驟：

對LKJ報警數據，通過標準音進行朗讀，將朗讀的標準音進行訓練生成報警模型數據庫；

對獲取的機車中的錄音筆的錄音文件，分別進行單通道的音頻噪聲去除和雙通道的音頻噪聲去除；

對去除噪聲的錄音文件，提取其中的所有語音片段和語音片段對應的時間；

將相鄰語音片段之間的間隔時間在設定間隔閾值范圍內、且語音片段時長在設定時長閾值范圍內的語音片段提取出來，作為有效語音片段；

將有效語音片段與模型數據庫中的數據進行匹配，獲取有效語音片段中的報警信息，同時獲取報警信息的報警類別；

將獲取的報警信息，與LKJ的該報警信息所屬的時間進行對比，獲取錄音文件的延遲，根據該延遲，對錄音文件進行校時。

所述對去除噪聲的錄音文件，提取其中的所有語音片段時，通過MFCC的方式提取其中的信號頻率特征。

所述訓練模型建立過程為：對標準音朗讀的報警語音信號，使用MFCC方法提取信號的頻率特征，根據提取出的頻率特征，通過馬爾科夫算法建立訓練模型。

所述對錄音文件進行校時的方法為：

設置以LKJ標準時間為X軸坐標和Y軸坐標的平面坐標系，在獲取的報警信息中選擇至少兩個報警信息，且在每個報警信息中獲取至少一個時間點，并獲取該時間點在錄音筆中的時間和在LKJ標準時間中的時間，在上述平面坐標系中計算多個時間點的時間斜率，根據該斜率對該錄音筆記錄的錄音文件進行簡單計算校時。

所述設定間隔閾值范圍為LKJ對相同的報警信息播報兩遍時中間間隔的最短時間和最長時間之間的范圍。

所述設定時長閾值為LKJ播報的報警信息中最長報警信息的時長和最短報警信息的時長之間的范圍。

本發明的有益效果：采用時域與頻域相結合的方法可以準確的識別錄音筆中記錄的LKJ語音的報警類別，獲取報警時間，進而與LKJ視頻信息中的報警信息進行比對，對錄音文件進行時間調整，達到音視頻聯動分析的目的。

附圖說明

圖1為本發明的訓練模型建立流程圖。

圖2為本發明的語音識別流程圖。

具體實施方式

下面結合附圖和具體實施方式對本發明作進一步詳細說明。

本發明提供一種對LKJ上記錄機車運行中的所有語音信息的錄音文件進行自動校時的方法。該方法通過對錄音文件記錄的LKJ的報警信息進行識別與時間對照，對錄音文件進行校時，以實現音視頻的聯動分析。

由于錄音文件會記錄汽車鳴笛、司機對話、汽車機械振動等信息，而LKJ中通常不記錄這些信息，且這些信息噪聲較大，信息識別具有復雜性，無法根據這些信息進行時間提取，然后根據LKJ的標準時間軸進行錄音文件的校時。

而LKJ會對各種報警信息進行語音播報，每次錄音文件均會對這些報警信息進行記錄，同時，錄音文件中記錄的報警信息的播報具有獨特性，根據這些語音對錄音進行校時，準確性高，復雜度低。

本發明的方法首先需要對LKJ播報的報警信息進行數據庫訓練。即在無噪音條件下，對LKJ所有涉及的報警信息通過機器標準音進行多次朗讀，通過梅爾倒譜頻率（MFCC）提取這些標準音中的特征，然后通過隱式馬爾科夫模型（HMM）將朗讀的標準音訓練成報警模型數據庫。

由于錄音文件具有單信道的和雙信道的不同錄音文件，因此，針對不同的錄音文件使用不同的去燥方法進行噪音去除與語音增強。其中，單信道的語音文件通過最優改進對數譜幅度估計（OMLSA）的現有算法進行去燥與語音增強，雙信道文件采用基于人耳掩蔽效應的譜減算法進行去燥與語音增強。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于河南思維信息技術有限公司，未經河南思維信息技術有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201611218473.4/2.html，轉載請聲明來源鉆瓜專利網。

上一篇：歸一化聲學模型的輸入數據的設備和方法和語音識別設備
下一篇：操作事件的執行方法及裝置、終端

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創建基準模板；訓練語音識別系統，例如對說話者聲音特征的適應
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】