[發明專利]用于言語轉換系統的分級編碼器在審
| 申請號: | 202010597958.9 | 申請日: | 2020-06-28 |
| 公開(公告)號: | CN112233645A | 公開(公告)日: | 2021-01-15 |
| 發明(設計)人: | 普納杰·查克拉瓦蒂;麗莎·斯卡里亞;瑞恩·伯克;弗朗索瓦·沙雷特;普拉韋恩·納拉亞南 | 申請(專利權)人: | 福特全球技術公司 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L25/30;G06N3/04 |
| 代理公司: | 北京連和連知識產權代理有限公司 11278 | 代理人: | 張濤;陳黎明 |
| 地址: | 美國密歇根*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 言語 轉換 系統 分級 編碼器 | ||
本公開提供“用于言語轉換系統的分級編碼器”。描述了一種言語轉換系統,其包括分級編碼器和解碼器。所述系統可以包括處理器和存儲可由處理器執行的指令的存儲器。指令可以包括:使用第二遞歸神經網絡(RNN)(GRU1)和從譜圖得到的第一組編碼器向量作為第二RNN的輸入,確定第二級聯序列;通過將第二級聯序列的堆疊高度加倍并且將長度減半來確定第二組編碼器向量;使用第二組編碼器向量,確定第三組編碼器向量;并且使用注意力塊對第三組編碼器向量進行解碼。
技術領域
本公開的各方面總體上涉及言語轉換系統。
背景技術
自動言語識別(ASR)引擎可以接收音頻作為輸入,并且可以將音頻分類為文本。而且,文本到言語(TTS)引擎可以接收文本并輸出言語表示。然而,這種使用ASR和TTS引擎的過程遭受時間性損失。
發明內容
描述了一種言語轉換系統,其包括分級編碼器和解碼器。所述系統可以包括處理器和存儲可由處理器執行的指令的存儲器。指令可以包括:使用第二遞歸神經網絡(RNN)(GRU1)和從譜圖得到的第一組編碼器向量作為第二RNN的輸入,確定第二級聯序列;通過將第二級聯序列的堆疊高度加倍并且將長度減半來確定第二組編碼器向量;使用第二組編碼器向量,確定第三組編碼器向量;并且使用注意力塊對第三組編碼器向量進行解碼。
根據上述至少一個示例,指令還包括,在確定第二級聯序列之前:使用第一RNN(GRU0)和多個預處理的編碼器向量作為第一RNN的輸入,確定第一級聯序列;并且通過將第一級聯序列的堆疊高度加倍并將長度減半來確定第一組編碼器向量。
根據上述至少一個示例,第一和第二RNN是門控遞歸單元(GRU),并且每個都是雙向傳遞。
根據上述至少一個示例,處理器還使用第三RNN,其中第三RNN接收第二組編碼器向量作為輸入,并提供第三組編碼器向量作為輸出。
根據上述至少一個示例,第三RNN是門控遞歸單元(GRU)并進行雙向傳遞。
根據上述至少一個示例,譜圖是梅爾譜圖。
根據上述至少一個示例,譜圖包括多個級聯向量,其中譜圖是言語話語的視覺表示。
根據上述至少一個示例,指令還包括,在確定第二組編碼向量之前:基于輸入并使用編碼器預處理神經網絡(PRENET)及卷積濾波器組和高速通道(CFBH)層,確定多個預處理的編碼器向量;并且使用第一RNN(GRU0)和多個預處理的編碼器向量作為第一RNN的輸入,確定第一組編碼器向量。
根據上述至少一個示例,指令還包括:在注意力塊處,迭代地生成注意力上下文向量;并且提供注意力上下文向量。
根據上述至少一個示例,指令還包括:通過將第三組編碼器向量與先前最佳匹配向量進行比較,從第三組編碼器向量中確定最佳匹配向量;并且為注意力塊提供最佳匹配向量,以確定更新后的注意力上下文向量。
根據上述至少一個示例,指令還包括:在注意力塊處:接收第三組編碼向量中的一個作為輸入;在注意力塊處:接收一組解碼器隱藏向量中的至少一個作為輸入;在注意力塊處:確定注意力上下文向量;并且提供注意力上下文向量。
根據上述至少一個示例,第三組編碼向量是一組隱藏的編碼器向量。
根據上述至少一個示例,解碼指令還包括:通過在注意力遞歸神經網絡(RNN)處接收第一組解碼器向量作為輸入,確定一組隱藏的解碼器向量,其中第一組解碼器向量中的至少一個包括注意力上下文向量與多個預處理的解碼器向量中的至少一個的級聯;使用殘差解碼器堆疊和一組隱藏的解碼器向量,確定一組解碼器輸出向量;將一組解碼器輸出向量中的至少一個反饋為解碼器預處理神經網絡(PRENET)的輸入;并且使用解碼器PRENET來確定和更新多個預處理的解碼器向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福特全球技術公司,未經福特全球技術公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010597958.9/2.html,轉載請聲明來源鉆瓜專利網。





