[發明專利]藏語方言識別方法及系統有效
| 申請號: | 201410280868.1 | 申請日: | 2014-06-20 |
| 公開(公告)號: | CN104036774B | 公開(公告)日: | 2018-03-06 |
| 發明(設計)人: | 徐杰;袁慶升;包秀國;陳訓遜;云曉春 | 申請(專利權)人: | 國家計算機網絡與信息安全管理中心;科大訊飛股份有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/26 |
| 代理公司: | 北京維澳專利代理有限公司11252 | 代理人: | 王立民,姜溯洲 |
| 地址: | 100029*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 藏語 方言 識別 方法 系統 | ||
技術領域
本發明涉及語種識別技術領域,具體涉及一種藏語方言識別方法及系統。
背景技術
語種識別技術是指通過自動從錄音文件中提取語音的聲學特征和音素序列,進而判斷錄音文件所屬語言種類的一項智能語音技術,是語音識別技術的重要方向和應用領域。藏語作為少數民族語言中使用人數最多的語言之一,且隨著各民族之間經濟、教育等互動日益增多,藏語的識別需求已經越來越強烈。為了能較準確地識別藏語,首先需要確定待識別藏語的方言種類,進而進一步識別藏語內容。藏語包含多種方言,主要包括衛藏、康巴和安多三大藏語方言,進一步細分又可分為十三種下位方言,且各方言之間共用一套音素體系,因此方言間混淆度很大,這無疑給藏語方言種類識別帶來了較大的挑戰。
現有的語種識別方案主要有:基于聲學特征建模的方法、基于音素識別器-語言模型(Phone Recognize and Language Model,PR-LM)或者基于并行音素識別器-語言模型(PPR-LM)的方法。這兩種方法在較通用的語種識別任務中,取得了較好的識別效果。但針對藏語具有各方言間混淆度大、訓練數據不足等特點,采用傳統的語種識別方法,存在難以獲取海量的標注語音訓練數據、聲學識別模型或語言模型區分性低等問題,從而無法較好地完成藏語方言識別的任務。
發明內容
本發明實施例提供一種藏語方言識別方法及系統,以解決稀缺方言數據PR(Phone Recognize,音素識別器)模型無法準確訓練及建模精度不夠的問題。
為此,本發明實施例提供如下技術方案:
一種藏語方言識別方法,包括:
預先訓練語種識別模型,所述語種識別模型包括:多方言DNN(Deep Neural Networks,深層神經網絡)并行音素識別器模型、多方言語言模型;
接收待識別藏語方言語音信息;
提取所述語音信息的聲學特征;
利用所述多方言DNN并行音素識別器模型獲得對應所述聲學特征的音素序列;
計算各音素序列在每個語言模型上的似然得分;
將似然得分最高的語言模型對應的方言作為所述語音信息對應的方言種類。
優選地,所述語種識別模型還包括:多方言聲學模型;
所述方法還包括:
利用所述聲學特征及所述多方言聲學模型,確定藏語候選方言;
所述利用所述多方言DNN并行音素識別器模型獲得對應所述聲學特征的音素序列包括:
從所述多方言DNN并行音素識別器模型中選擇與所述藏語候選方言對應的音素識別器模型;
利用選出的DNN音素識別器模型獲得對應所述藏語候選方言的聲學特征的音素序列。
優選地,所述預先訓練語種識別模型包括:
獲取藏語方言語音訓練數據;
提取所述語音訓練數據的聲學特征;
對于每種方言,利用所述方言的語音訓練數據的聲學特征,訓練得到對應該方言的聲學模型、DNN音素識別器模型、語言模型。
優選地,所述利用所述方言的語音訓練數據的聲學特征,訓練得到對應該方言的聲學模型包括:
利用所述方言的語音訓練數據的聲學特征及通用背景模型,訓練得到對應該方言的聲學模型。
優選地,所述利用所述方言的語音訓練數據的聲學特征,訓練得到對應該方言的DNN音素識別器模型包括:
建立多方言DNN并行音素識別器模型拓撲結構,所述拓撲結構包括輸入層、隱含層和輸出層;
根據前藏方言的語音訓練數據的聲學特征,采用預訓練反向傳播算法訓練前藏方言DNN音素識別器模型;
去除所述拓撲結構中的前藏方言DNN音素識別器模型的輸出節點,訓練其它藏語方言DNN音素識別器模型。
優選地,所述利用所述方言的語音訓練數據的聲學特征,訓練得到對應該方言的語言模型包括:
計算所述方言的語音訓練數據的聲學特征在所述方言的DNN音素識別器模型的輸出節點的輸出值;
根據所述輸出值在統計語言模型上進行解碼,得到音素序列;
根據所述音素序列對所述統計語言模型進行訓練,得到所述方言的語言模型。
一種藏語方言識別系統,包括:
模型訓練模塊,用于預先訓練語種識別模型,所述語種識別模型包括:多方言DNN并行音素識別器模型、多方言語言模型;
接收模塊,用于接收待識別藏語方言語音信息;
提取模塊,用于提取所述語音信息的聲學特征;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家計算機網絡與信息安全管理中心;科大訊飛股份有限公司,未經國家計算機網絡與信息安全管理中心;科大訊飛股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410280868.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種抗裂防水劑
- 下一篇:液體灌裝機的防漏回收裝置





