[發(fā)明專利]一種基于文字轉(zhuǎn)語音技術(shù)進(jìn)行視頻配音的方法在審
| 申請?zhí)枺?/td> | 202011377101.2 | 申請日: | 2020-11-30 |
| 公開(公告)號: | CN112397049A | 公開(公告)日: | 2021-02-23 |
| 發(fā)明(設(shè)計)人: | 張賢華 | 申請(專利權(quán))人: | 長沙神漫文化科技有限公司 |
| 主分類號: | G10L13/04 | 分類號: | G10L13/04;G10L13/033;H04N5/262;H04N21/44 |
| 代理公司: | 安化縣梅山專利事務(wù)所 43005 | 代理人: | 潘訪華 |
| 地址: | 410000 湖南省長沙市岳麓*** | 國省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 文字 語音 技術(shù) 進(jìn)行 視頻 配音 方法 | ||
本發(fā)明公開了視頻處理技術(shù)領(lǐng)域的一種基于文字轉(zhuǎn)語音技術(shù)進(jìn)行視頻配音的方法,該種基于文字轉(zhuǎn)語音技術(shù)進(jìn)行視頻配音的方法為:S1:選擇攜帶視頻錄制軟件的硬件進(jìn)行視頻的錄制,預(yù)先設(shè)置錄像參數(shù),錄制速率為20幀~25幀,保證錄制環(huán)境的穩(wěn)定,降低錄制現(xiàn)場雜音低,視頻畫面無明顯的晃動失真情況;S2:借助網(wǎng)絡(luò)云服務(wù)器來設(shè)定數(shù)據(jù)庫,數(shù)據(jù)庫與TTS服務(wù)器連接,該種基于文字轉(zhuǎn)語音技術(shù)進(jìn)行視頻配音的方法,借助TTS技術(shù)并增設(shè)數(shù)據(jù)庫,數(shù)據(jù)庫中可內(nèi)置多種語音規(guī)格,自主選擇的可編輯性強(qiáng),在進(jìn)行文字轉(zhuǎn)語音操作時,可靈活選配不同規(guī)格的語音,快速達(dá)到文字轉(zhuǎn)語音的過程,也增加了配音過程的多樣性,適用多類型的視頻處理,提高了處理效率。
技術(shù)領(lǐng)域
本發(fā)明公開了一種基于文字轉(zhuǎn)語音技術(shù)進(jìn)行視頻配音的方法,具體為視頻處理技術(shù)領(lǐng)域。
背景技術(shù)
TTS在內(nèi)置芯片的支持之下,通過神經(jīng)網(wǎng)絡(luò)的設(shè)計,把文字智能地轉(zhuǎn)化為自然語音流,TTS技術(shù)對文本文件進(jìn)行實(shí)時轉(zhuǎn)換,轉(zhuǎn)換時間之短可以秒計算。在其特有智能語音控制器作用下,文本輸出的語音音律流暢,使得聽者在聽取信息時感覺自然,毫無機(jī)器語音輸出的冷漠與生澀感。
TTS是語音合成應(yīng)用的一種,它將儲存于電腦中的文件,如幫助文件或者網(wǎng)頁,轉(zhuǎn)換成自然語音輸出。TTS不僅能幫助有視覺障礙的人閱讀計算機(jī)上的信息,更能增加文本文檔的可讀性。TTS應(yīng)用包括語音驅(qū)動的郵件以及聲音敏感系統(tǒng),并常與聲音識別程序一起使用。
而視頻配音就是視頻處理的一個步驟,配音是為影片或多媒體加入聲音的過程,由于聲音出現(xiàn)錯漏,或者需要配合其他內(nèi)容,就需要對視頻進(jìn)行重新配音,而在配音的文字轉(zhuǎn)語音過程中,就會選擇性的使用TTS服務(wù)器。
目前,在進(jìn)行文字轉(zhuǎn)語音技術(shù)進(jìn)行視頻配音的過程中,借助的TTS技術(shù)都為常規(guī)選擇,缺少自主選擇的可編輯,這就使文字轉(zhuǎn)語音的操作過程,選配不同規(guī)格的語音靈活性受限,雖可快速達(dá)到文字轉(zhuǎn)語音的過程,可對于特殊性的配音要求,還需要二次處理,配音過程的多樣性差,難以適用多類型的視頻處理,降低了處理的效率。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于文字轉(zhuǎn)語音技術(shù)進(jìn)行視頻配音的方法,以解決上述背景技術(shù)中提出的目前現(xiàn)有的文字轉(zhuǎn)語音技術(shù)進(jìn)行視頻配音的過程中,借助的TTS技術(shù)都為常規(guī)選擇,缺少自主選擇的可編輯,這就使文字轉(zhuǎn)語音的操作過程,選配不同規(guī)格的語音靈活性受限,雖可快速達(dá)到文字轉(zhuǎn)語音的過程,可對于特殊性的配音要求,還需要二次處理,配音過程的多樣性差,難以適用多類型的視頻處理,降低了處理的效率的問題。
為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種基于文字轉(zhuǎn)語音技術(shù)進(jìn)行視頻配音的方法,該種基于文字轉(zhuǎn)語音技術(shù)進(jìn)行視頻配音的方法為:
S1:選擇攜帶視頻錄制軟件的硬件進(jìn)行視頻的錄制,預(yù)先設(shè)置錄像參數(shù),錄制速率為20幀~25幀,保證錄制環(huán)境的穩(wěn)定,降低錄制現(xiàn)場雜音低,視頻畫面無明顯的晃動失真情況;
S2:借助網(wǎng)絡(luò)云服務(wù)器來設(shè)定數(shù)據(jù)庫,數(shù)據(jù)庫與TTS服務(wù)器連接,數(shù)據(jù)庫中內(nèi)置多種語音規(guī)格,包括男聲、女聲、男童聲、女童聲和軟件變種聲等,數(shù)據(jù)庫具有上傳通道和下載通道,數(shù)據(jù)庫自備存儲端;
S3:對錄制后的原視頻文件進(jìn)行播放檢查,確定無雜音、斷點(diǎn)、錄制空白或晃動情況,將檢查后的原視頻文件導(dǎo)出,并插入配音的文字文本;
S4:將S3中的文字文本傳輸?shù)綌?shù)據(jù)庫,利用數(shù)據(jù)庫連接TTS服務(wù)器后進(jìn)行文字轉(zhuǎn)語音操作,過程中可按照不同的語音規(guī)格進(jìn)行聲音的調(diào)整,以形成配音文件,并把配音文件回傳至文字文本的位置,并插入空白音頻;
S5:進(jìn)行音頻的合成,將配音文件和空白音頻進(jìn)行結(jié)合,以形成合成音頻文件;
S6:進(jìn)行音頻的潤飾,利用潤飾軟件把音頻拖拽到軟件中,對于平衡不對稱和音差較大的音量參數(shù)進(jìn)行調(diào)整,對破音、特高音進(jìn)行壓制,并對音頻力度欠佳的部分進(jìn)行增強(qiáng);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于長沙神漫文化科技有限公司,未經(jīng)長沙神漫文化科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011377101.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
- 防止技術(shù)開啟的鎖具新技術(shù)
- 技術(shù)評價裝置、技術(shù)評價程序、技術(shù)評價方法
- 防止技術(shù)開啟的鎖具新技術(shù)
- 視聽模擬技術(shù)(VAS技術(shù))
- 用于技術(shù)縮放的MRAM集成技術(shù)
- 用于監(jiān)測技術(shù)設(shè)備的方法和用戶接口、以及計算機(jī)可讀存儲介質(zhì)
- 用于監(jiān)測技術(shù)設(shè)備的技術(shù)
- 技術(shù)偵查方法及技術(shù)偵查系統(tǒng)
- 使用投影技術(shù)增強(qiáng)睡眠技術(shù)
- 基于技術(shù)庫的技術(shù)推薦方法





