[發(fā)明專利]語音生成方法、裝置、設(shè)備和計(jì)算機(jī)可讀介質(zhì)在審

申請(qǐng)?zhí)枺?/td>	202010880060.2	申請(qǐng)日：	2020-08-27
公開（公告）號(hào)：	CN112017685A	公開（公告）日：	2020-12-01
發(fā)明（設(shè)計(jì)）人：	李入云;蔡猛	申請(qǐng)（專利權(quán)）人：	北京字節(jié)跳動(dòng)網(wǎng)絡(luò)技術(shù)有限公司
主分類號(hào)：	G10L21/0272	分類號(hào)：	G10L21/0272;G10L21/0308;G06K9/62
代理公司：	北京衛(wèi)智暢科專利代理事務(wù)所(普通合伙) 11557	代理人：	陳佳
地址：	100041 北京市石景山區(qū)***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	語音生成方法裝置設(shè)備計(jì)算機(jī) 可讀介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本公開的實(shí)施例公開了用于生成對(duì)話語音的方法、裝置、電子設(shè)備和計(jì)算機(jī)可讀介質(zhì)。該方法的一具體實(shí)施方式包括：在原始語音集合中確定包含一個(gè)說話人聲音的語音，得到語音集合；基于上述語音集合，生成每個(gè)說話人的語音段集合；將目標(biāo)數(shù)目個(gè)說話人的語音段集合中的語音段拼接起來，得到對(duì)話語音。該實(shí)施方式通過將多個(gè)不同說話人的個(gè)人說話語音片段拼接為對(duì)話語音，使對(duì)話語音中不同說話人之間的說話語音清晰、完整、無交疊。

技術(shù)領(lǐng)域

本公開的實(shí)施例涉及計(jì)算機(jī)技術(shù)領(lǐng)域，具體涉及語音生成方法、裝置、設(shè)備和計(jì)算機(jī)可讀介質(zhì)。

背景技術(shù)

隨著人工智能技術(shù)的發(fā)展，可以使用人工智能技術(shù)進(jìn)行對(duì)話語音中說話人的識(shí)別。訓(xùn)練說話人識(shí)別的模型時(shí)，往往需要大量已經(jīng)標(biāo)注了說話人的對(duì)話語音。可是現(xiàn)實(shí)中的對(duì)話語音經(jīng)常會(huì)有多個(gè)說話人同時(shí)說話的情況。這導(dǎo)致不同說話人的語音相互交疊。或者對(duì)話中的語音不夠清晰完整。

發(fā)明內(nèi)容

本公開的內(nèi)容部分用于以簡要的形式介紹構(gòu)思，這些構(gòu)思將在后面的具體實(shí)施方式部分被詳細(xì)描述。本公開的內(nèi)容部分并不旨在標(biāo)識(shí)要求保護(hù)的技術(shù)方案的關(guān)鍵特征或必要特征，也不旨在用于限制所要求的保護(hù)的技術(shù)方案的范圍。

本公開的一些實(shí)施例提出了用于生成對(duì)話語音的方法、裝置、設(shè)備和計(jì)算機(jī)可讀介質(zhì)，來解決以上背景技術(shù)部分提到的技術(shù)問題。

第一方面，本公開的一些實(shí)施例提供了一種用于生成對(duì)話語音的方法，該方法包括：在原始語音集合中確定包含一個(gè)說話人聲音的語音，得到語音集合；基于上述語音集合，生成每個(gè)說話人的語音段集合；將目標(biāo)數(shù)目個(gè)說話人的語音段集合中的語音段拼接起來，得到對(duì)話語音。

第二方面，本公開的一些實(shí)施例提供了一種語音生成裝置，裝置包括：確定單元，被配置成在原始語音集合中確定包含一個(gè)說話人聲音的語音，得到語音集合；生成單元，被配置成基于上述語音集合，生成每個(gè)說話人的語音段集合；拼接單元，被配置成將目標(biāo)數(shù)目個(gè)說話人的語音段集合中的語音段拼接起來，得到對(duì)話語音。

第三方面，本公開的一些實(shí)施例提供了一種電子設(shè)備，包括：一個(gè)或多個(gè)處理器；存儲(chǔ)裝置，其上存儲(chǔ)有一個(gè)或多個(gè)程序，當(dāng)一個(gè)或多個(gè)程序被一個(gè)或多個(gè)處理器執(zhí)行，使得一個(gè)或多個(gè)處理器實(shí)現(xiàn)如第一方面中任一實(shí)現(xiàn)方式描述的方法。

第四方面，本公開的一些實(shí)施例提供了一種計(jì)算機(jī)可讀介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，其中，程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如第一方面中任一實(shí)現(xiàn)方式描述的方法。

本公開的上述各個(gè)實(shí)施例中的一個(gè)實(shí)施例具有如下有益效果：通過將多個(gè)不同說話人的個(gè)人說話語音片段拼接為對(duì)話語音，使對(duì)話語音中不同說話人之間的說話語音清晰、完整、無交疊。

附圖說明

結(jié)合附圖并參考以下具體實(shí)施方式，本公開各實(shí)施例的上述和其他特征、優(yōu)點(diǎn)及方面將變得更加明顯。貫穿附圖中，相同或相似的附圖標(biāo)記表示相同或相似的元素。應(yīng)當(dāng)理解附圖是示意性的，原件和元素不一定按照比例繪制。

圖1是本公開的一些實(shí)施例的語音生成方法的一個(gè)應(yīng)用場(chǎng)景的示意圖；

圖2是根據(jù)本公開的語音生成方法的一些實(shí)施例的流程圖；

圖3是根據(jù)本公開的語音生成方法的另一些實(shí)施例的流程圖；

圖4是根據(jù)本公開的語音生成裝置的一些實(shí)施例的結(jié)構(gòu)示意圖；

圖5是適于用來實(shí)現(xiàn)本公開的一些實(shí)施例的電子設(shè)備的結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面將參照附圖更詳細(xì)地描述本公開的實(shí)施例。雖然附圖中顯示了本公開的某些實(shí)施例，然而應(yīng)當(dāng)理解的是，本公開可以通過各種形式來實(shí)現(xiàn)，而且不應(yīng)該被解釋為限于這里闡述的實(shí)施例。相反，提供這些實(shí)施例是為了更加透徹和完整地理解本公開。應(yīng)當(dāng)理解的是，本公開的附圖及實(shí)施例僅用于示例性作用，并非用于限制本公開的保護(hù)范圍。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京字節(jié)跳動(dòng)網(wǎng)絡(luò)技術(shù)有限公司，未經(jīng)北京字節(jié)跳動(dòng)網(wǎng)絡(luò)技術(shù)有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010880060.2/2.html，轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識(shí)別；音頻分析或處理
G10L21-00 為了改變語音信號(hào)的質(zhì)量或其可識(shí)度而處理語音信號(hào)，以產(chǎn)生另一種可聽的或非可聽的信號(hào)，例如視覺信號(hào)或觸覺信號(hào)
G10L21-02 .語音增強(qiáng)，例如降低噪聲或消除回聲
G10L21-04 .時(shí)間壓縮或擴(kuò)展
G10L21-06 .將語音轉(zhuǎn)換成非可聽表達(dá)形式，例如語音可視化、觸覺輔助的語音處理

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】