[發(fā)明專利]語音生成方法、裝置、設(shè)備和計(jì)算機(jī)可讀介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202010880060.2 | 申請(qǐng)日: | 2020-08-27 |
| 公開(公告)號(hào): | CN112017685A | 公開(公告)日: | 2020-12-01 |
| 發(fā)明(設(shè)計(jì))人: | 李入云;蔡猛 | 申請(qǐng)(專利權(quán))人: | 北京字節(jié)跳動(dòng)網(wǎng)絡(luò)技術(shù)有限公司 |
| 主分類號(hào): | G10L21/0272 | 分類號(hào): | G10L21/0272;G10L21/0308;G06K9/62 |
| 代理公司: | 北京衛(wèi)智暢科專利代理事務(wù)所(普通合伙) 11557 | 代理人: | 陳佳 |
| 地址: | 100041 北京市石景山區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 生成 方法 裝置 設(shè)備 計(jì)算機(jī) 可讀 介質(zhì) | ||
本公開的實(shí)施例公開了用于生成對(duì)話語音的方法、裝置、電子設(shè)備和計(jì)算機(jī)可讀介質(zhì)。該方法的一具體實(shí)施方式包括:在原始語音集合中確定包含一個(gè)說話人聲音的語音,得到語音集合;基于上述語音集合,生成每個(gè)說話人的語音段集合;將目標(biāo)數(shù)目個(gè)說話人的語音段集合中的語音段拼接起來,得到對(duì)話語音。該實(shí)施方式通過將多個(gè)不同說話人的個(gè)人說話語音片段拼接為對(duì)話語音,使對(duì)話語音中不同說話人之間的說話語音清晰、完整、無交疊。
技術(shù)領(lǐng)域
本公開的實(shí)施例涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體涉及語音生成方法、裝置、設(shè)備和計(jì)算機(jī)可讀介質(zhì)。
背景技術(shù)
隨著人工智能技術(shù)的發(fā)展,可以使用人工智能技術(shù)進(jìn)行對(duì)話語音中說話人的識(shí)別。訓(xùn)練說話人識(shí)別的模型時(shí),往往需要大量已經(jīng)標(biāo)注了說話人的對(duì)話語音。可是現(xiàn)實(shí)中的對(duì)話語音經(jīng)常會(huì)有多個(gè)說話人同時(shí)說話的情況。這導(dǎo)致不同說話人的語音相互交疊。或者對(duì)話中的語音不夠清晰完整。
發(fā)明內(nèi)容
本公開的內(nèi)容部分用于以簡要的形式介紹構(gòu)思,這些構(gòu)思將在后面的具體實(shí)施方式部分被詳細(xì)描述。本公開的內(nèi)容部分并不旨在標(biāo)識(shí)要求保護(hù)的技術(shù)方案的關(guān)鍵特征或必要特征,也不旨在用于限制所要求的保護(hù)的技術(shù)方案的范圍。
本公開的一些實(shí)施例提出了用于生成對(duì)話語音的方法、裝置、設(shè)備和計(jì)算機(jī)可讀介質(zhì),來解決以上背景技術(shù)部分提到的技術(shù)問題。
第一方面,本公開的一些實(shí)施例提供了一種用于生成對(duì)話語音的方法,該方法包括:在原始語音集合中確定包含一個(gè)說話人聲音的語音,得到語音集合;基于上述語音集合,生成每個(gè)說話人的語音段集合;將目標(biāo)數(shù)目個(gè)說話人的語音段集合中的語音段拼接起來,得到對(duì)話語音。
第二方面,本公開的一些實(shí)施例提供了一種語音生成裝置,裝置包括:確定單元,被配置成在原始語音集合中確定包含一個(gè)說話人聲音的語音,得到語音集合;生成單元,被配置成基于上述語音集合,生成每個(gè)說話人的語音段集合;拼接單元,被配置成將目標(biāo)數(shù)目個(gè)說話人的語音段集合中的語音段拼接起來,得到對(duì)話語音。
第三方面,本公開的一些實(shí)施例提供了一種電子設(shè)備,包括:一個(gè)或多個(gè)處理器;存儲(chǔ)裝置,其上存儲(chǔ)有一個(gè)或多個(gè)程序,當(dāng)一個(gè)或多個(gè)程序被一個(gè)或多個(gè)處理器執(zhí)行,使得一個(gè)或多個(gè)處理器實(shí)現(xiàn)如第一方面中任一實(shí)現(xiàn)方式描述的方法。
第四方面,本公開的一些實(shí)施例提供了一種計(jì)算機(jī)可讀介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其中,程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面中任一實(shí)現(xiàn)方式描述的方法。
本公開的上述各個(gè)實(shí)施例中的一個(gè)實(shí)施例具有如下有益效果:通過將多個(gè)不同說話人的個(gè)人說話語音片段拼接為對(duì)話語音,使對(duì)話語音中不同說話人之間的說話語音清晰、完整、無交疊。
附圖說明
結(jié)合附圖并參考以下具體實(shí)施方式,本公開各實(shí)施例的上述和其他特征、優(yōu)點(diǎn)及方面將變得更加明顯。貫穿附圖中,相同或相似的附圖標(biāo)記表示相同或相似的元素。應(yīng)當(dāng)理解附圖是示意性的,原件和元素不一定按照比例繪制。
圖1是本公開的一些實(shí)施例的語音生成方法的一個(gè)應(yīng)用場(chǎng)景的示意圖;
圖2是根據(jù)本公開的語音生成方法的一些實(shí)施例的流程圖;
圖3是根據(jù)本公開的語音生成方法的另一些實(shí)施例的流程圖;
圖4是根據(jù)本公開的語音生成裝置的一些實(shí)施例的結(jié)構(gòu)示意圖;
圖5是適于用來實(shí)現(xiàn)本公開的一些實(shí)施例的電子設(shè)備的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將參照附圖更詳細(xì)地描述本公開的實(shí)施例。雖然附圖中顯示了本公開的某些實(shí)施例,然而應(yīng)當(dāng)理解的是,本公開可以通過各種形式來實(shí)現(xiàn),而且不應(yīng)該被解釋為限于這里闡述的實(shí)施例。相反,提供這些實(shí)施例是為了更加透徹和完整地理解本公開。應(yīng)當(dāng)理解的是,本公開的附圖及實(shí)施例僅用于示例性作用,并非用于限制本公開的保護(hù)范圍。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京字節(jié)跳動(dòng)網(wǎng)絡(luò)技術(shù)有限公司,未經(jīng)北京字節(jié)跳動(dòng)網(wǎng)絡(luò)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010880060.2/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





