[發明專利]一種基于卷積神經網絡和連接性時序分類的錄音處理方法在審
| 申請號: | 202010164390.1 | 申請日: | 2020-03-11 |
| 公開(公告)號: | CN111246026A | 公開(公告)日: | 2020-06-05 |
| 發明(設計)人: | 王賢達;喬樹彬;陳強;祝佳云 | 申請(專利權)人: | 蘭州飛天網景信息產業有限公司 |
| 主分類號: | H04M3/51 | 分類號: | H04M3/51;G10L15/02;G10L15/06;G10L15/14;G10L15/16;G10L15/22;G10L15/26;G10L19/02;G10L21/0208;G10L21/0216 |
| 代理公司: | 成都弘毅天承知識產權代理有限公司 51230 | 代理人: | 許志輝 |
| 地址: | 730000 甘*** | 國省代碼: | 甘肅;62 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 卷積 神經網絡 連接 時序 分類 錄音 處理 方法 | ||
1.一種基于卷積神經網絡和連接性時序分類的錄音處理方法,其特征在于,包含以下步驟:
S1:利用現有的語音素材,建立數據模型;
S2:獲取源服務器錄音文件,并進行預處理;
S3:利用模型文件,對錄音文件進行二次識別處理;
S4:將輸出的處理結果記錄存儲到數據庫中。
2.根據權利要求1所述的方法,其特征在于,所述步驟S1包含以下步驟:
S101:下載建立模型所需的語音文件數據集;
S102:對下載語音文件進行整理,存放在統一的目錄下,語音文件全部是標準的wav文件,以標準普通話為主;
S103:如果有需求,根據實際情況準備方言版本,并保存為標準的wav文件;
S104:將語音文件中的語音信號通過分幀加窗操作轉換為卷積神經網絡需要的二維頻譜圖像信號,也就是語譜圖;
S105:提取語音文件語譜圖中的特征;
S106:將提取的特征與神經網絡相結合,將輸入的特征圖數量作為單個神經網絡的通道數目;
S107:截取特征所對應的信息時間為時間序列;
S108:部署人工神經網絡庫Keras和開源的深度學習框架TensorFlow;
S109:采用開源的深度學習框架TensorFlow作為轉化工具,將上述語譜圖訓練數據集轉化為TensorFlow訓練網絡所需的訓練集,使用開源的人工神經網絡庫Keras對這種參考了VGG的深層的深度卷積神經網絡進行處理,建立語音深度神經網絡模型;
S110:利用TensorFlow訓練命令調用配置方案,以訓練模型至最優性能;
S111:對模型進行測試,以檢查訓練效果。如果不滿意,可以調整參數,返回S102,重新訓練。
3.根據權利要求2所述的方法,其特征在于:所述語音文件數據集采用雙份的數據集,即THCHS30中文語音數據集和OpenSLR提供的免費ST-CMDS中文語音數據集。
4.根據權利要求3所述的方法,其特征在于,所述步驟S2包含以下步驟:
S201:利用FTP協議,將錄音文件從源服務器復制到處理服務器,并保存到特定目錄下;
S202:利用自開發的音頻轉換庫把VOX音頻文件轉化為WAV格式,以符合處理格式要求;
S203:對WAV文件的音頻信道加以處理,以實現數據增強,并消除背景雜音,以提高識別準確率。
5.根據權利要求4所述的方法,其特征在于,所述步驟S3包含以下步驟:
S301:讀取并加載S1步驟生成的模型文件;
S302:對預處理過的WAV格式錄音文件的音頻數據進行短時傅里葉變換,對其進行時頻分析并獲取其時間頻率頻譜,進而獲得頻譜圖;
S303:調用庫python_speech_features,對頻譜圖進行處理,借助模型進行分析,獲得聲學模型輸出;
S304:利用連接性時序分類技術,將連續相同的符合合并為同一個符號,然后再去除靜音分隔標記符,得到最終實際的語音拼音符號序列;
S305:借助基于概率圖的最大熵隱馬爾可夫模型,使用統計語言模型,將語音拼音符號轉換為最終的識別文本并輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘭州飛天網景信息產業有限公司,未經蘭州飛天網景信息產業有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010164390.1/1.html,轉載請聲明來源鉆瓜專利網。





