[發(fā)明專(zhuān)利]多人對(duì)話語(yǔ)音實(shí)時(shí)翻譯方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202110835277.6 | 申請(qǐng)日: | 2021-07-23 |
| 公開(kāi)(公告)號(hào): | CN113505612A | 公開(kāi)(公告)日: | 2021-10-15 |
| 發(fā)明(設(shè)計(jì))人: | 盧春曦;王健宗 | 申請(qǐng)(專(zhuān)利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類(lèi)號(hào): | G06F40/58 | 分類(lèi)號(hào): | G06F40/58;G06F40/289;G06K9/62;G06N3/04;G06N3/08;G10L15/00;G10L15/06;G10L15/16;G10L15/26;G10L21/0272 |
| 代理公司: | 深圳市世聯(lián)合知識(shí)產(chǎn)權(quán)代理有限公司 44385 | 代理人: | 汪琳琳 |
| 地址: | 518000 廣東省深圳市福田區(qū)福*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 對(duì)話 語(yǔ)音 實(shí)時(shí) 翻譯 方法 裝置 設(shè)備 存儲(chǔ) 介質(zhì) | ||
本申請(qǐng)實(shí)施例屬于語(yǔ)音處理技術(shù)領(lǐng)域,涉及一種多人對(duì)話語(yǔ)音實(shí)時(shí)翻譯方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì),其中方法包括:接收待翻譯的對(duì)話語(yǔ)音,將所述對(duì)話語(yǔ)音輸入到預(yù)設(shè)的語(yǔ)音分離模型進(jìn)行語(yǔ)音分離,得到N個(gè)子音頻;將所述子音頻通過(guò)ASR算法進(jìn)行語(yǔ)音識(shí)別,得到所述子音頻對(duì)應(yīng)的文本;將所述子音頻對(duì)應(yīng)的文本輸入到預(yù)設(shè)的翻譯引擎進(jìn)行翻譯,得到所述子音頻對(duì)應(yīng)的目標(biāo)語(yǔ)言翻譯結(jié)果。對(duì)話語(yǔ)音包含多個(gè)人聲,使AI實(shí)時(shí)翻譯的應(yīng)用場(chǎng)景可擴(kuò)大到日常的交流、會(huì)議;其次,先對(duì)分離的子音頻進(jìn)行語(yǔ)音識(shí)別,獲得對(duì)應(yīng)的文本,再以文本為基準(zhǔn)進(jìn)行目標(biāo)語(yǔ)言的轉(zhuǎn)換,不會(huì)出現(xiàn)漏翻的情況,且相對(duì)與直接使用音頻進(jìn)行目標(biāo)語(yǔ)言的轉(zhuǎn)換,處理起來(lái)更簡(jiǎn)便更準(zhǔn)確。
技術(shù)領(lǐng)域
本申請(qǐng)涉及語(yǔ)音處理技術(shù)領(lǐng)域,尤其涉及多人對(duì)話語(yǔ)音實(shí)時(shí)翻譯方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù)
在經(jīng)濟(jì)全球化的背景下,國(guó)際交流日益頻繁,對(duì)于智能化實(shí)時(shí)多語(yǔ)種翻譯的需求也越來(lái)越多。現(xiàn)階段,AI同傳可用于演講或新聞播報(bào)。但此類(lèi)場(chǎng)景,長(zhǎng)時(shí)間內(nèi)只有一人說(shuō)話,當(dāng)兩人或多人在同空間內(nèi)對(duì)話、討論時(shí),多余人聲會(huì)被當(dāng)做背景聲去除,翻譯結(jié)果還是以一人為主。且如果說(shuō)話人的背景聲中有其他人聲或更復(fù)雜的場(chǎng)景,會(huì)影響現(xiàn)階段同傳翻譯時(shí)語(yǔ)音識(shí)別的準(zhǔn)確性。
發(fā)明內(nèi)容
本申請(qǐng)實(shí)施例的目的在于提出一種多人對(duì)話語(yǔ)音實(shí)時(shí)翻譯方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì),以解決多方交流場(chǎng)景下,翻譯不準(zhǔn)確、漏翻的問(wèn)題。
為了解決上述技術(shù)問(wèn)題,本申請(qǐng)實(shí)施例提供一種多人對(duì)話語(yǔ)音實(shí)時(shí)翻譯方法,采用了如下所述的技術(shù)方案:
接收待翻譯的對(duì)話語(yǔ)音,所述對(duì)話語(yǔ)音包含N個(gè)人聲,N為大于1的整數(shù);
將所述對(duì)話語(yǔ)音輸入到預(yù)設(shè)的語(yǔ)音分離模型進(jìn)行語(yǔ)音分離,得到N個(gè)子音頻;
將所述子音頻通過(guò)ASR算法進(jìn)行語(yǔ)音識(shí)別,得到所述子音頻對(duì)應(yīng)的文本;
將所述子音頻對(duì)應(yīng)的文本輸入到預(yù)設(shè)的翻譯引擎進(jìn)行翻譯,得到所述子音頻對(duì)應(yīng)的目標(biāo)語(yǔ)言翻譯結(jié)果。
進(jìn)一步的,所述將所述對(duì)話語(yǔ)音輸入到預(yù)設(shè)的語(yǔ)音分離模型進(jìn)行語(yǔ)音分離,得到N個(gè)子音頻的步驟之前還包括:
獲取訓(xùn)練樣本,所述訓(xùn)練樣本為混合了N個(gè)人聲真實(shí)音頻的對(duì)話語(yǔ)音;
將所述訓(xùn)練樣本輸入到預(yù)設(shè)的卷積神經(jīng)網(wǎng)絡(luò)模型中,獲得所述卷積神經(jīng)網(wǎng)絡(luò)模型響應(yīng)所述訓(xùn)練樣本預(yù)測(cè)的N個(gè)人聲預(yù)測(cè)音頻;
調(diào)整所述卷積神經(jīng)網(wǎng)絡(luò)模型各節(jié)點(diǎn)的參數(shù),至所述N個(gè)人聲預(yù)測(cè)音頻與所述N個(gè)人聲真實(shí)音頻之間的信噪比達(dá)到最大值時(shí)結(jié)束,得到訓(xùn)練好的語(yǔ)音分離模型。
進(jìn)一步的,所述預(yù)設(shè)的翻譯引擎為M個(gè),且每個(gè)翻譯引擎對(duì)應(yīng)不同的目標(biāo)語(yǔ)種,所述將所述子音頻對(duì)應(yīng)的文本輸入到預(yù)設(shè)的翻譯引擎進(jìn)行翻譯,得到所述子音頻對(duì)應(yīng)的目標(biāo)語(yǔ)言翻譯結(jié)果的步驟具體包括:
獲取所述子音頻的翻譯目標(biāo)語(yǔ)種;
根據(jù)所述翻譯目標(biāo)語(yǔ)種匹配與所述翻譯目標(biāo)語(yǔ)種對(duì)應(yīng)的翻譯引擎;
將所述子音頻對(duì)應(yīng)的文本輸入到所述翻譯引擎中進(jìn)行翻譯,得到所述子音頻對(duì)應(yīng)的目標(biāo)語(yǔ)言翻譯結(jié)果。
進(jìn)一步的,當(dāng)所述目標(biāo)語(yǔ)言翻譯結(jié)果為文本時(shí),在所述將所述子音頻對(duì)應(yīng)的文本輸入到預(yù)設(shè)的翻譯引擎進(jìn)行翻譯,得到所述子音頻對(duì)應(yīng)的目標(biāo)語(yǔ)言翻譯結(jié)果的步驟之后,還包括:
將所述目標(biāo)語(yǔ)言翻譯結(jié)果輸入到預(yù)設(shè)的文字-語(yǔ)音轉(zhuǎn)換模型中進(jìn)行語(yǔ)音轉(zhuǎn)換,獲得所述目標(biāo)語(yǔ)言翻譯結(jié)果的音頻輸出。
進(jìn)一步的,在所述將所述子音頻通過(guò)ASR算法進(jìn)行語(yǔ)音識(shí)別,得到所述子音頻對(duì)應(yīng)的文本的步驟之后還包括:
將所述子音頻對(duì)應(yīng)的文本輸入到預(yù)先訓(xùn)練的文本糾錯(cuò)模型中進(jìn)行文本糾錯(cuò),得到校正后的文本;
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110835277.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 對(duì)話控制裝置、對(duì)話控制方法以及記錄介質(zhì)
- 任務(wù)對(duì)話系統(tǒng)中的對(duì)話處理方法及裝置
- 一種人機(jī)對(duì)話的方法、裝置和存儲(chǔ)介質(zhì)
- 對(duì)話(中)獎(jiǎng)勵(lì)評(píng)估和對(duì)話方法、介質(zhì)、裝置和計(jì)算設(shè)備
- 一種對(duì)話方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 一種輔助英文對(duì)話的方法及系統(tǒng)
- 一種回復(fù)對(duì)話評(píng)分模型訓(xùn)練方法、對(duì)話回復(fù)方法及其裝置
- 一種多輪對(duì)話的問(wèn)題定位方法及裝置
- 文本對(duì)話方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 對(duì)話型文本分類(lèi)方法、系統(tǒng)、設(shè)備及存儲(chǔ)介質(zhì)
- 用于語(yǔ)音處理的方法與系統(tǒng)
- 一種語(yǔ)音識(shí)別測(cè)試系統(tǒng)及方法
- 用于語(yǔ)音識(shí)別的方法和裝置
- 一種語(yǔ)音消毒柜的控制方法及語(yǔ)音消毒柜
- 一種語(yǔ)音處理方法及裝置
- 混合語(yǔ)音識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 語(yǔ)音情緒識(shí)別方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種具有語(yǔ)音識(shí)別功能的智能語(yǔ)音終端設(shè)備
- 語(yǔ)音增強(qiáng)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種聲紋鑒定語(yǔ)音重組方法和系統(tǒng)
- 實(shí)時(shí)解碼系統(tǒng)與實(shí)時(shí)解碼方法
- 實(shí)時(shí)穩(wěn)定
- 實(shí)時(shí)監(jiān)控裝置、實(shí)時(shí)監(jiān)控系統(tǒng)以及實(shí)時(shí)監(jiān)控方法
- 實(shí)時(shí)或準(zhǔn)實(shí)時(shí)流傳輸
- 實(shí)時(shí)或準(zhǔn)實(shí)時(shí)流傳輸
- 實(shí)時(shí)通信方法和實(shí)時(shí)通信系統(tǒng)
- 實(shí)時(shí)更新
- 實(shí)時(shí)內(nèi)核
- 用于通信網(wǎng)絡(luò)的網(wǎng)絡(luò)設(shè)備及相關(guān)方法
- 實(shí)時(shí)量化方法及實(shí)時(shí)量化系統(tǒng)
- 一種構(gòu)建多語(yǔ)言網(wǎng)站實(shí)時(shí)翻譯的方法
- 一種待翻譯軟件的翻譯方法及裝置
- 一種待翻譯軟件的翻譯方法及裝置
- 一種CAT系統(tǒng)中翻譯記憶庫(kù)和MT結(jié)合的方法及系統(tǒng)
- 翻譯方法、系統(tǒng)、終端以及存儲(chǔ)介質(zhì)
- 一種文本展示方法及裝置
- 機(jī)器翻譯方法及裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 基于機(jī)器翻譯引擎的翻譯方法及裝置
- 翻譯系統(tǒng)、翻譯方法、翻譯機(jī)及存儲(chǔ)介質(zhì)
- 文字翻譯方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)





