[發明專利]一種深度學習中端到端的寵物語言翻譯方法在審
| 申請號: | 202111188371.3 | 申請日: | 2021-10-12 |
| 公開(公告)號: | CN114023337A | 公開(公告)日: | 2022-02-08 |
| 發明(設計)人: | 王峰;李夢君;屈俊峰;黃金洲;國冰磊;孫成嬌 | 申請(專利權)人: | 湖北文理學院 |
| 主分類號: | G10L17/26 | 分類號: | G10L17/26;G10L17/18 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 羅飛 |
| 地址: | 441053 *** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 深度 學習 中端 寵物 語言 翻譯 方法 | ||
本發明提供了一種深度學習中端到端的寵物語言翻譯方法,首先,讀取原始寵物音頻文件;然后從原始寵物音頻文件中提取寵物叫聲;再將提取的寵物叫聲的音頻特征序列輸入預先構建的端到端的寵物語言翻譯模型,其中,寵物語言翻譯模型包括音頻編碼器網絡、標簽預測網絡、聯合網絡和全連接層,音頻編碼器網絡用于根據音頻特征序列獲取翻譯結果標簽序列,標簽預測網絡用于根據音頻編碼器網絡獲取的翻譯結果標簽序列的上一翻譯結果標簽序列得到預測結果序列,聯合網絡用于將音頻編碼器網絡和標簽預測網絡的輸出進行疊加,全連接層用于計算音頻特征序列與翻譯結果標簽序列的匹配概率。本發明可以實現寵物語言翻譯,并保證準確性。
技術領域
本發明涉及人工智能中自然語言處理與翻譯技術領域,尤其涉及一種深度學習中端到端的寵物語言翻譯方法。
背景技術
聲紋,是指攜帶語言信息的聲波頻譜。它不僅具有特定性,而且具有相對穩定性的特點。對于人來說,其聲音在成年后會保持長期相對穩定不變的狀態。因此,它同指紋一樣,具有獨特的生物學特征,可用于身份識別。據美國圣何塞州立大學-國家生物特征測評中心研究結果顯示,與指紋、掌型、視網膜、虹膜、人臉、靜脈等生物特征識別技術相比,聲紋識別在易用性、準確率、成本、用戶接受度、遠程認證、手機采集等多方面具有不同程度的優勢。
聲紋識別技術工作的大體流程是:1、提取語音,預處理并提取聲音特征;2、利用已訓練模型,計算語音對應的聲紋模型或特征;3、相似度打分,得到評級結果。本發明正是利用聲紋識別技術中相關步驟作為橋梁來實現寵物語言翻譯過程的。當前已存在最先進的技術i-vectors和end-to-end僅限于將聲紋識別技術應用于說話人鑒定上,即鑒定說話人與被鑒定對象是否為同一人,或找出被鑒定對象在被鑒定音頻中是哪個說話人。
經詳細的調查研究發現,鮮有技術模型和方法被用于寵物聲紋識別,甚至于寵物語言翻譯。
發明內容
本發明提出一種深度學習中端到端的寵物語言翻譯方法,用于解決或者至少部分解決現有技術中無法對寵物語言進行翻譯的技術問題。
為了解決上述技術問題,本發明提供了一種深度學習中端到端的寵物語言翻譯方法,包括:
S1:讀取原始寵物音頻文件;
S2:從原始寵物音頻文件中提取寵物叫聲;
S3:將提取的寵物叫聲的音頻特征序列輸入預先構建的端到端的寵物語言翻譯模型,其中,寵物語言翻譯模型包括音頻編碼器網絡、標簽預測網絡、聯合網絡和全連接層,音頻編碼器網絡用于根據音頻特征序列獲取翻譯結果標簽序列,標簽預測網絡用于根據音頻編碼器網絡獲取的翻譯結果標簽序列的上一翻譯結果標簽序列得到預測結果序列,聯合網絡用于將音頻編碼器網絡和標簽預測網絡的輸出進行疊加,全連接層用于計算音頻特征序列與翻譯結果標簽序列的匹配概率,基于匹配概率能夠得到最終翻譯結果。
在一種實施方式中,步驟S3中音頻編碼器網絡的計算過程為:
其中,t表示時間序列,u表示翻譯件結果標簽序列的編號,表示音頻特征序列對應的翻譯結果標簽序列,ft表示音頻編碼器網絡的輸出。
在一種實施方式中,步驟S3標簽預測網絡的計算過程為:
其中,表示根據音頻編碼器網絡獲取的翻譯結果標簽序列的上一翻譯結果標簽序列,gu-1表示預測結果序列。
在一種實施方式中,步驟S3聯合網絡的計算過程為:
ht,u-1=relu(ft+gu-1)(3)
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖北文理學院,未經湖北文理學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111188371.3/2.html,轉載請聲明來源鉆瓜專利網。





