[發明專利]用于切割音頻文件的方法及其相關產品在審

申請號：	202210369998.7	申請日：	2022-04-08
公開（公告）號：	CN114694657A	公開（公告）日：	2022-07-01
發明（設計）人：	王艷;段亦濤	申請（專利權）人：	網易有道信息技術（北京）有限公司
主分類號：	G10L15/26	分類號：	G10L15/26;G10L15/16;H04N21/8547;H04N21/488;H04N21/43
代理公司：	北京維昊知識產權代理事務所(普通合伙) 11804	代理人：	杜丹丹;陳姍姍
地址：	100094 北京市海淀區西北***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	用于切割音頻文件方法及其相關產品
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種用于切割音頻文件的方法，其特征在于，包括：

獲取與所述音頻文件時序相關的字幕文本；

對所述字幕文本進行可視化展示；以及

響應于對所展示的所述字幕文本的切割操作，同步對所述字幕文本和所述音頻文件進行切割以生成多個新文件。

2.根據權利要求1所述的方法，其特征在于，獲取與所述音頻文件時序相關的字幕文本包括：

獲取所述音頻文件的語音識別文本；以及

基于所述語音識別文本，生成與所述音頻文件時間戳相匹配的字幕文本。

3.根據權利要求2所述的方法，其特征在于，基于所述語音識別文本，生成與所述音頻文件時間戳相匹配的字幕文本包括：

對所述語音識別文本進行可視化增強處理；以及

基于處理后的語音識別文本，生成與所述音頻文件時間戳相匹配的字幕文本。

4.根據權利要求3所述的方法，其特征在于，對所述語音識別文本進行可視化增強處理包括：

獲取所述音頻文件的原始字幕文本；

結合所述原始字幕文本，對所述語音識別文本進行可視化增強處理，其中所述可視化增強處理至少包括斷句處理。

5.根據權利要求2至4中任一項所述的方法，其特征在于，其中所述切割操作包括對所述字幕文本進行至少一次打標操作，針對每次打標操作，同步對所述字幕文本和所述音頻文件進行切割以生成多個新文件包括：

確定所述打標操作在所述字幕文本中打標位置處的時間戳；

對所述音頻文件中具有相同所述時間戳的音頻進行打標；以及

對經打標的所述字幕文本和所述音頻文件進行切割處理以生成多個新文件，其中所生成的多個新文件中的每個音頻文件與各自的字幕文本相對應。

6.根據權利要求2至4所述的方法，其特征在于，其中所述切割操作還包括依據段落標記對所述字幕文本進行的至少一次切割操作，針對每次切割操作，同步對所述字幕文本和所述音頻文件進行切割以生成多個新文件包括：

記錄所述段落標記處的時間戳；

展示基于所述段落標記對所述字幕文本的切割結果；

響應于用戶對所述切割結果的確定，生成關于所述字幕文本的新文件；以及

對所述音頻文件中具有所述段落標記處的時間戳的音頻進行同步切割，以生成關于所述音頻文件的新文件，其中關于所述字幕文本的新文件和關于所述音頻文本的新文件是依據所述段落標記命名的。

7.根據權利要求5所述的方法，其特征在于，對所述字幕文本進行可視化展示包括：

以單行短句形式對所述字幕文本進行展示。

8.根據權利要求5所述的方法，其特征在于，所述方法還包括：

在切割所述字幕文本和所述音頻文件過程中，支持同步播放所述音頻文件，以基于播放的所述音頻文件對所述字幕文本和時間戳進行校準。

9.一種設備，其特征在于，包括：

處理器；以及

存儲器，其存儲用于切割音頻文件的計算機指令，當所述計算機指令由所述處理器運行時，使得所述設備執行根據權利要求1-8的任意一項所述的方法。

10.一種計算機可讀存儲介質，其特征在于，包含用于切割音頻文件的程序指令，當所述程序指令由處理器執行時，使得實現根據權利要求1-8的任意一項所述的方法。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于網易有道信息技術（北京）有限公司，未經網易有道信息技術（北京）有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202210369998.7/1.html，轉載請聲明來源鉆瓜專利網。

專利分類

專利文獻下載