[發明專利]用于言語轉換系統的分級編碼器在審
| 申請號: | 202010597958.9 | 申請日: | 2020-06-28 |
| 公開(公告)號: | CN112233645A | 公開(公告)日: | 2021-01-15 |
| 發明(設計)人: | 普納杰·查克拉瓦蒂;麗莎·斯卡里亞;瑞恩·伯克;弗朗索瓦·沙雷特;普拉韋恩·納拉亞南 | 申請(專利權)人: | 福特全球技術公司 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L25/30;G06N3/04 |
| 代理公司: | 北京連和連知識產權代理有限公司 11278 | 代理人: | 張濤;陳黎明 |
| 地址: | 美國密歇根*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 言語 轉換 系統 分級 編碼器 | ||
1.一種言語轉換系統,其包括:
處理器;以及
存儲器,所述存儲器存儲能由所述處理器執行的指令,所述指令包括:
使用第二遞歸神經網絡(RNN)(GRU1)和從譜圖得到的第一組編碼器向量作為所述第二RNN的輸入,確定第二級聯序列;
通過將所述第二級聯序列的堆疊高度加倍并且將長度減半來確定第二組編碼器向量;
使用所述第二組編碼器向量,確定第三組編碼器向量;并且
使用注意力塊對所述第三組編碼器向量進行解碼。
2.如權利要求1所述的系統,其中所述指令還包括,在確定所述第二級聯序列之前:
使用第一RNN(GRU0)和多個預處理的編碼器向量作為所述第一RNN的輸入,確定第一級聯序列;并且
通過將所述第一級聯序列的堆疊高度加倍并將長度減半來確定所述第一組編碼器向量。
3.如權利要求2所述的系統,其中所述第一和第二RNN是門控遞歸單元(GRU),并且每個都是雙向傳遞。
4.如權利要求1所述的系統,其中所述處理器還使用第三RNN,其中所述第三RNN接收所述第二組編碼器向量作為輸入,并提供所述第三組編碼器向量作為輸出。
5.如權利要求4所述的系統,其中所述第三RNN是門控遞歸單元(GRU)并進行雙向傳遞。
6.如權利要求1所述的系統,其中所述譜圖是梅爾譜圖。
7.如權利要求1所述的系統,其中所述譜圖包括多個級聯向量,其中所述譜圖是言語話語的視覺表示。
8.如權利要求1所述的系統,其中所述指令還包括,在確定所述第二組編碼向量之前:
基于所述輸入并使用編碼器預處理神經網絡(PRENET)及卷積濾波器組和高速通道(CFBH)層,確定多個預處理的編碼器向量;并且
使用第一RNN(GRU0)和所述多個預處理的編碼器向量作為所述第一RNN的輸入,確定所述第一組編碼器向量。
9.如權利要求1所述的系統,其中所述指令還包括:在所述注意力塊處,迭代地生成注意力上下文向量;并且提供所述注意力上下文向量。
10.如權利要求9所述的系統,其中所述指令還包括:通過將所述第三組編碼器向量與先前最佳匹配向量進行比較,從所述第三組編碼器向量中確定最佳匹配向量;并且為所述注意力塊提供所述最佳匹配向量,以確定更新后的注意力上下文向量。
11.如權利要求1所述的系統,其中所述指令還包括:
在所述注意力塊處:接收所述第三組編碼向量中的一個作為輸入;
在所述注意力塊處:接收一組解碼器隱藏向量中的至少一個作為輸入;
在所述注意力塊處:確定注意力上下文向量;以及
提供所述注意力上下文向量。
12.如權利要求1所述的系統,其中所述第三組編碼向量是一組隱藏的編碼器向量。
13.如權利要求1所述的系統,其中所述解碼指令還包括:
通過在注意力遞歸神經網絡(RNN)處接收第一組解碼器向量作為輸入,確定一組隱藏的解碼器向量,其中所述第一組解碼器向量中的至少一個包括注意力上下文向量與多個預處理的解碼器向量中的至少一個的級聯;
使用殘差解碼器堆疊和所述一組隱藏的解碼器向量,確定一組解碼器輸出向量;
將所述一組解碼器輸出向量中的至少一個反饋為解碼器預處理神經網絡(PRENET)的輸入;并且
使用所述解碼器PRENET來確定和更新所述多個預處理的解碼器向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福特全球技術公司,未經福特全球技術公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010597958.9/1.html,轉載請聲明來源鉆瓜專利網。





