[發(fā)明專利]音頻處理方法、裝置、電子設(shè)備以及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202011486633.X | 申請日: | 2020-12-16 |
| 公開(公告)號: | CN112509609B | 公開(公告)日: | 2022-06-10 |
| 發(fā)明(設(shè)計)人: | 董超宏;劉衍晴 | 申請(專利權(quán))人: | 北京樂學(xué)幫網(wǎng)絡(luò)技術(shù)有限公司 |
| 主分類號: | G11B20/10 | 分類號: | G11B20/10 |
| 代理公司: | 北京中知恒瑞知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11889 | 代理人: | 謝玲 |
| 地址: | 100094 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 音頻 處理 方法 裝置 電子設(shè)備 以及 存儲 介質(zhì) | ||
本公開提供了一種音頻處理方法、裝置、電子設(shè)備以及存儲介質(zhì)。其中,該方法包括:獲取用戶針對預(yù)設(shè)文本的原始朗讀音頻;基于預(yù)設(shè)文本的發(fā)音信息,在原始朗讀音頻中確定出目標(biāo)音頻段的起始位置和終止位置;根據(jù)目標(biāo)音頻段的起始位置和終止位置,從原始朗讀音頻中獲取目標(biāo)音頻段;將目標(biāo)音頻段合成到目標(biāo)待合成文件的對應(yīng)位置處;其中,目標(biāo)待合成文件為音視頻文件。一方面可以降低合成后的文件中的冗余音頻量,另一方面也可以確保預(yù)設(shè)文本的有效朗讀音頻能夠更加準(zhǔn)確地合成到目標(biāo)待合成文件中的期望位置,從而提高合成后的文件的播放效果,提升用戶體驗。
技術(shù)領(lǐng)域
本公開涉及音頻的技術(shù)領(lǐng)域,具體而言,涉及一種音頻處理方法、裝置、電子設(shè)備以及存儲介質(zhì)。
背景技術(shù)
為了提升兒童的學(xué)習(xí)興趣,市場上不斷推出了各類學(xué)習(xí)軟件來增加學(xué)習(xí)過程的趣味性。例如,現(xiàn)有的一種幫助兒童進(jìn)行朗讀學(xué)習(xí)的APP,可以錄制老師針對指定文本(如古詩句)的朗讀音頻,之后將朗讀音頻發(fā)送給學(xué)生,學(xué)生選擇感興趣的文本之后,可以試聽老師提前錄制的朗讀音頻,然后自己錄制跟讀音頻,并將跟讀音頻上傳。
然而,這種方式趣味性較低,用戶體驗也不佳。
發(fā)明內(nèi)容
本公開實施例至少提供一種音頻處理方法、裝置、電子設(shè)備以及存儲介質(zhì)。
第一方面,本公開實施例提供了一種音頻處理方法,包括:獲取用戶針對預(yù)設(shè)文本的原始朗讀音頻;基于預(yù)設(shè)文本的發(fā)音信息,在原始朗讀音頻中確定出目標(biāo)音頻段的起始位置和終止位置;根據(jù)目標(biāo)音頻段的起始位置和終止位置,從原始朗讀音頻中獲取目標(biāo)音頻段;將目標(biāo)音頻段合成到目標(biāo)待合成文件的對應(yīng)位置處;其中,目標(biāo)待合成文件為音視頻文件。
在一種可選的實施方式中,基于預(yù)設(shè)文本的發(fā)音信息,所述在原始朗讀音頻中確定出目標(biāo)音頻段的起始位置和終止位置,包括:將原始朗讀音頻和預(yù)設(shè)文本發(fā)送至服務(wù)器;接收服務(wù)器發(fā)送的基于預(yù)設(shè)文本的發(fā)音信息在原始朗讀音頻中確定出的目標(biāo)音頻段的起始位置和終止位置。
在一種可選的實施方式中,預(yù)設(shè)文本的發(fā)音信息表征為聲韻母序列;所述基于預(yù)設(shè)文本的發(fā)音信息,在原始朗讀音頻中確定出目標(biāo)音頻段的起始位置和終止位置,包括:獲取預(yù)設(shè)文本的聲韻母序列,以及原始朗讀音頻的音素序列;將預(yù)設(shè)文本的聲韻母序列和原始朗讀音頻的音素序列進(jìn)行匹配,根據(jù)匹配結(jié)果在原始朗讀音頻中確定出目標(biāo)音頻段的起始位置和終止位置。
在一種可選的實施方式中,所述將預(yù)設(shè)文本的聲韻母序列和原始朗讀音頻的音素序列進(jìn)行匹配,根據(jù)匹配結(jié)果在原始朗讀音頻中確定出目標(biāo)音頻段的起始位置和終止位置,包括:在音素序列中確定出與聲韻母序列匹配的子音素序列;根據(jù)子音素序列在音素序列中的位置,在原始朗讀音頻中確定出預(yù)設(shè)文本的有效朗讀音頻段的起始位置和終止位置;根據(jù)預(yù)設(shè)文本的有效朗讀音頻段的起始位置和終止位置,在原始朗讀音頻中確定出目標(biāo)音頻段的起始位置和終止位置。
在一種可選的實施方式中,所述在音素序列中確定出與聲韻母序列匹配的子音素序列,包括:在音素序列中,確定出與預(yù)設(shè)文本的首字的聲韻母序列匹配的第一子音素序列、以及與預(yù)設(shè)文本的尾字的聲韻母序列匹配的第二子音素序列;根據(jù)子音素序列在音素序列中的位置,在原始朗讀音頻中確定出預(yù)設(shè)文本的有效朗讀音頻段的起始位置和終止位置,包括:根據(jù)第一子音素序列和第二子音素序列在音素序列中的位置,在原始朗讀音頻中分別確定出預(yù)設(shè)文本的有效朗讀音頻段的起始位置和結(jié)束位置。
在一種可選的實施方式中,所述根據(jù)第一子音素序列和第二子音素序列在音素序列中的位置,在原始朗讀音頻中分別確定出預(yù)設(shè)文本的有效朗讀音頻段的起始位置和結(jié)束位置,包括:在音素序列中,確定出與首字的后一個文字的聲韻母序列相匹配的第三子音素序列、確定出與尾字的前一個文字的聲韻母序列相匹配的第四子音素序列;在確定第一子音素序列與第三子音素序列相鄰、且第二子音素序列與第四子音素序列相鄰時,根據(jù)第一子音素序列在音素序列中的位置確定出有效朗讀音頻段的起始位置,根據(jù)第二子音素序列在音素序列中的位置確定出有效朗讀音頻段的終止位置。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京樂學(xué)幫網(wǎng)絡(luò)技術(shù)有限公司,未經(jīng)北京樂學(xué)幫網(wǎng)絡(luò)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011486633.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





