[發(fā)明專利]一種基于文字轉(zhuǎn)語音技術(shù)進(jìn)行視頻配音的方法在審

申請?zhí)枺?/td>	202011377101.2	申請日：	2020-11-30
公開（公告）號：	CN112397049A	公開（公告）日：	2021-02-23
發(fā)明（設(shè)計）人：	張賢華	申請（專利權(quán)）人：	長沙神漫文化科技有限公司
主分類號：	G10L13/04	分類號：	G10L13/04;G10L13/033;H04N5/262;H04N21/44
代理公司：	安化縣梅山專利事務(wù)所 43005	代理人：	潘訪華
地址：	410000 湖南省長沙市岳麓***	國省代碼：	湖南;43
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于文字語音技術(shù) 進(jìn)行視頻配音方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明公開了視頻處理技術(shù)領(lǐng)域的一種基于文字轉(zhuǎn)語音技術(shù)進(jìn)行視頻配音的方法，該種基于文字轉(zhuǎn)語音技術(shù)進(jìn)行視頻配音的方法為：S1：選擇攜帶視頻錄制軟件的硬件進(jìn)行視頻的錄制，預(yù)先設(shè)置錄像參數(shù)，錄制速率為20幀～25幀，保證錄制環(huán)境的穩(wěn)定，降低錄制現(xiàn)場雜音低，視頻畫面無明顯的晃動失真情況；S2：借助網(wǎng)絡(luò)云服務(wù)器來設(shè)定數(shù)據(jù)庫，數(shù)據(jù)庫與TTS服務(wù)器連接，該種基于文字轉(zhuǎn)語音技術(shù)進(jìn)行視頻配音的方法，借助TTS技術(shù)并增設(shè)數(shù)據(jù)庫，數(shù)據(jù)庫中可內(nèi)置多種語音規(guī)格，自主選擇的可編輯性強(qiáng)，在進(jìn)行文字轉(zhuǎn)語音操作時，可靈活選配不同規(guī)格的語音，快速達(dá)到文字轉(zhuǎn)語音的過程，也增加了配音過程的多樣性，適用多類型的視頻處理，提高了處理效率。

技術(shù)領(lǐng)域

本發(fā)明公開了一種基于文字轉(zhuǎn)語音技術(shù)進(jìn)行視頻配音的方法，具體為視頻處理技術(shù)領(lǐng)域。

背景技術(shù)

TTS在內(nèi)置芯片的支持之下，通過神經(jīng)網(wǎng)絡(luò)的設(shè)計，把文字智能地轉(zhuǎn)化為自然語音流，TTS技術(shù)對文本文件進(jìn)行實(shí)時轉(zhuǎn)換，轉(zhuǎn)換時間之短可以秒計算。在其特有智能語音控制器作用下，文本輸出的語音音律流暢，使得聽者在聽取信息時感覺自然，毫無機(jī)器語音輸出的冷漠與生澀感。

TTS是語音合成應(yīng)用的一種，它將儲存于電腦中的文件，如幫助文件或者網(wǎng)頁，轉(zhuǎn)換成自然語音輸出。TTS不僅能幫助有視覺障礙的人閱讀計算機(jī)上的信息，更能增加文本文檔的可讀性。TTS應(yīng)用包括語音驅(qū)動的郵件以及聲音敏感系統(tǒng)，并常與聲音識別程序一起使用。

而視頻配音就是視頻處理的一個步驟，配音是為影片或多媒體加入聲音的過程，由于聲音出現(xiàn)錯漏，或者需要配合其他內(nèi)容，就需要對視頻進(jìn)行重新配音，而在配音的文字轉(zhuǎn)語音過程中，就會選擇性的使用TTS服務(wù)器。

目前，在進(jìn)行文字轉(zhuǎn)語音技術(shù)進(jìn)行視頻配音的過程中，借助的TTS技術(shù)都為常規(guī)選擇，缺少自主選擇的可編輯，這就使文字轉(zhuǎn)語音的操作過程，選配不同規(guī)格的語音靈活性受限，雖可快速達(dá)到文字轉(zhuǎn)語音的過程，可對于特殊性的配音要求，還需要二次處理，配音過程的多樣性差，難以適用多類型的視頻處理，降低了處理的效率。

發(fā)明內(nèi)容

本發(fā)明的目的在于提供一種基于文字轉(zhuǎn)語音技術(shù)進(jìn)行視頻配音的方法，以解決上述背景技術(shù)中提出的目前現(xiàn)有的文字轉(zhuǎn)語音技術(shù)進(jìn)行視頻配音的過程中，借助的TTS技術(shù)都為常規(guī)選擇，缺少自主選擇的可編輯，這就使文字轉(zhuǎn)語音的操作過程，選配不同規(guī)格的語音靈活性受限，雖可快速達(dá)到文字轉(zhuǎn)語音的過程，可對于特殊性的配音要求，還需要二次處理，配音過程的多樣性差，難以適用多類型的視頻處理，降低了處理的效率的問題。

為實(shí)現(xiàn)上述目的，本發(fā)明提供如下技術(shù)方案：一種基于文字轉(zhuǎn)語音技術(shù)進(jìn)行視頻配音的方法，該種基于文字轉(zhuǎn)語音技術(shù)進(jìn)行視頻配音的方法為：

S1：選擇攜帶視頻錄制軟件的硬件進(jìn)行視頻的錄制，預(yù)先設(shè)置錄像參數(shù)，錄制速率為20幀～25幀，保證錄制環(huán)境的穩(wěn)定，降低錄制現(xiàn)場雜音低，視頻畫面無明顯的晃動失真情況；

S2：借助網(wǎng)絡(luò)云服務(wù)器來設(shè)定數(shù)據(jù)庫，數(shù)據(jù)庫與TTS服務(wù)器連接，數(shù)據(jù)庫中內(nèi)置多種語音規(guī)格，包括男聲、女聲、男童聲、女童聲和軟件變種聲等，數(shù)據(jù)庫具有上傳通道和下載通道，數(shù)據(jù)庫自備存儲端；

S3：對錄制后的原視頻文件進(jìn)行播放檢查，確定無雜音、斷點(diǎn)、錄制空白或晃動情況，將檢查后的原視頻文件導(dǎo)出，并插入配音的文字文本；

S4：將S3中的文字文本傳輸?shù)綌?shù)據(jù)庫，利用數(shù)據(jù)庫連接TTS服務(wù)器后進(jìn)行文字轉(zhuǎn)語音操作，過程中可按照不同的語音規(guī)格進(jìn)行聲音的調(diào)整，以形成配音文件，并把配音文件回傳至文字文本的位置，并插入空白音頻；

S5：進(jìn)行音頻的合成，將配音文件和空白音頻進(jìn)行結(jié)合，以形成合成音頻文件；

S6：進(jìn)行音頻的潤飾，利用潤飾軟件把音頻拖拽到軟件中，對于平衡不對稱和音差較大的音量參數(shù)進(jìn)行調(diào)整，對破音、特高音進(jìn)行壓制，并對音頻力度欠佳的部分進(jìn)行增強(qiáng)；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于長沙神漫文化科技有限公司，未經(jīng)長沙神漫文化科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011377101.2/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：下一篇：應(yīng)用頁面發(fā)布方法、裝置、電子設(shè)備及存儲介質(zhì)

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L13-00 語音合成；文本-語音合成系統(tǒng)
G10L13-02 .產(chǎn)生合成語音的方法；語音合成設(shè)備
G10L13-06 .語音合成設(shè)備中使用的基本語音單位；級聯(lián)規(guī)則
G10L13-08 .文本分析或文本以外的語音合成參數(shù)的產(chǎn)生，例如語義圖翻譯為音素、韻律產(chǎn)生、重音或聲調(diào)測定
G10L13-04 ..語音合成系統(tǒng)的零部件，例如合成設(shè)備結(jié)構(gòu)或存儲器管理

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

[發(fā)明專利]一種基于文字轉(zhuǎn)語音技術(shù)進(jìn)行視頻配音的方法在審

專利文獻(xiàn)下載