[發(fā)明專利]文本生成方法、裝置、電子設(shè)備和計(jì)算機(jī)可讀介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202010067770.3 | 申請(qǐng)日: | 2020-01-20 |
| 公開(公告)號(hào): | CN111326157B | 公開(公告)日: | 2023-09-08 |
| 發(fā)明(設(shè)計(jì))人: | 李磊;王明軒;董倩倩 | 申請(qǐng)(專利權(quán))人: | 抖音視界有限公司 |
| 主分類號(hào): | G10L15/26 | 分類號(hào): | G10L15/26;G10L15/02;G10L15/16;G10L15/06;G06F40/30;G06N3/0464;G06N3/084;G10L15/30 |
| 代理公司: | 北京風(fēng)雅頌專利代理有限公司 11403 | 代理人: | 王剛 |
| 地址: | 100041 北京市石景山區(qū)*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 生成 方法 裝置 電子設(shè)備 計(jì)算機(jī) 可讀 介質(zhì) | ||
1.一種文本生成方法,包括:
獲取源語言的待處理語音;
將所述待處理語音輸入端到端語音翻譯模型,得到所述待處理語音對(duì)應(yīng)的目標(biāo)語言的文本,其中,所述端到端語音翻譯模型包括編碼器和解碼器,所述編碼器包括第一編碼器和第二編碼器,所述第一編碼器用于提取所述待處理語音的聲學(xué)特征,所述第二編碼器用于提取所述待處理語音的語義特征;所述第二編碼器是基于輸出向量與編碼向量的差異訓(xùn)練得到的,所述輸出向量是將訓(xùn)練樣本中的樣本語音對(duì)應(yīng)的源語言樣本文本輸入預(yù)先訓(xùn)練的文本嵌入模型得到的,所述編碼向量是將所述訓(xùn)練樣本中的樣本語音輸入所述編碼器得到的;所述輸出向量包括文本向量和標(biāo)記符向量。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述端到端語音翻譯模型的訓(xùn)練樣本集中的訓(xùn)練樣本為包括樣本語音、樣本語音對(duì)應(yīng)的源語言樣本文本、樣本語音對(duì)應(yīng)的目標(biāo)語言樣本文本的三元組。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述第一編碼器通過以下步驟訓(xùn)練得到:
將訓(xùn)練樣本中的樣本語音作為輸入,將與輸入的樣本語音對(duì)應(yīng)的源語言樣本文本作為期望輸出,基于時(shí)序分類損失函數(shù)進(jìn)行訓(xùn)練。
4.根據(jù)權(quán)利要求1所述的方法,其中,所述編碼向量與所述輸出向量之間的差異通過以下步驟得到:
將所述編碼向量輸入卷積網(wǎng)絡(luò),得到類別編碼向量;
基于預(yù)設(shè)損失函數(shù)計(jì)算所述類別編碼向量與所述標(biāo)記符向量之間的差異。
5.根據(jù)權(quán)利要求1所述的方法,其中,所述編碼向量與所述輸出向量之間的差異通過以下步驟得到:
將所述編碼向量輸入多頭注意力網(wǎng)絡(luò),得到內(nèi)容編碼向量;
基于預(yù)設(shè)損失函數(shù)計(jì)算所述內(nèi)容編碼向量與所述文本向量之間的差異。
6.根據(jù)權(quán)利要求1所述的方法,其中,所述第一編碼器和所述第二編碼器均包括至少一層轉(zhuǎn)換層,所述至少一層轉(zhuǎn)換層中的轉(zhuǎn)換層包括多頭注意力網(wǎng)絡(luò)和前饋網(wǎng)絡(luò)。
7.根據(jù)權(quán)利要求6所述的方法,其中,所述解碼器包括至少一層轉(zhuǎn)換層和額外的多頭注意力網(wǎng)絡(luò),其中,所述額外的多頭注意力網(wǎng)絡(luò)用于計(jì)算所述編碼器所輸出的、所述待處理語音的編碼向量與當(dāng)前位置之前的解碼文本之間的注意力。
8.根據(jù)權(quán)利要求1所述的方法,其中,所述將所述待處理語音輸入端到端語音翻譯模型,包括:
提取所述待處理語音的特征序列;
對(duì)所述特征序列進(jìn)行線性變換以使所述特征序列的長(zhǎng)度與所述端到端語音翻譯模型的維度相匹配,得到變換后特征序列;
將位置編碼加入所述變換后特征序列,得到輸入特征序列;
將所述輸入特征序列輸入所述端到端語音翻譯模型。
9.一種文本生成裝置,包括:
獲取單元,被配置成獲取源語言的待處理語音;
語音處理單元,被配置成將所述待處理語音輸入端到端語音翻譯模型,得到所述待處理語音對(duì)應(yīng)的目標(biāo)語言的文本,
其中,所述端到端語音翻譯模型包括編碼器和解碼器,所述編碼器包括一級(jí)編碼器和二級(jí)編碼器,所述一級(jí)編碼器用于提取所述待處理語音的聲學(xué)特征,所述二級(jí)編碼器用于提取所述待處理語音的語義特征;所述二級(jí)編碼器是基于輸出向量與編碼向量的差異訓(xùn)練得到的,所述輸出向量是將訓(xùn)練樣本中的樣本語音對(duì)應(yīng)的源語言樣本文本輸入預(yù)先訓(xùn)練的文本嵌入模型得到的,所述編碼向量是將所述訓(xùn)練樣本中的樣本語音輸入所述編碼器得到的;所述輸出向量包括文本向量和標(biāo)記符向量。
10.一種電子設(shè)備,包括:
一個(gè)或多個(gè)處理器;
存儲(chǔ)裝置,其上存儲(chǔ)有一個(gè)或多個(gè)程序,
當(dāng)所述一個(gè)或多個(gè)程序被所述一個(gè)或多個(gè)處理器執(zhí)行,使得所述一個(gè)或多個(gè)處理器實(shí)現(xiàn)如權(quán)利要求1-8中任一所述的方法。
11.一種計(jì)算機(jī)可讀介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其中,所述程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-8中任一所述的方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于抖音視界有限公司,未經(jīng)抖音視界有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010067770.3/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





