[發(fā)明專利]音頻消息分段方法、裝置、存儲介質(zhì)和電子設(shè)備在審

申請?zhí)枺?/td>	201910182085.2	申請日：	2019-03-11
公開（公告）號：	CN109994126A	公開（公告）日：	2019-07-09
發(fā)明（設(shè)計）人：	格日勒圖;陳禹霖	申請（專利權(quán)）人：	北京三快在線科技有限公司
主分類號：	G10L21/028	分類號：	G10L21/028;G10L25/78;G10L19/04
代理公司：	北京英創(chuàng)嘉友知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11447	代理人：	張巖龍
地址：	100190 北京市海***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	音頻消息播放進度存儲介質(zhì) 電子設(shè)備多段預設(shè) 分段即時通訊應用人聲識別算法確定音頻分割用戶體驗算法收聽轉(zhuǎn)換
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本公開涉及一種音頻消息分段方法、裝置、存儲介質(zhì)和電子設(shè)備，以解決相關(guān)技術(shù)中對音頻消息中的特定部分進行定位和播放進度的控制時操作難度大并且精確性較低的技術(shù)問題，該方法包括：通過預設(shè)的人聲識別算法確定即時通訊應用接收到的第一音頻消息中是否存在人聲；若確定該第一音頻消息中存在人聲，通過預設(shè)的音頻分割算法將該第一音頻消息轉(zhuǎn)換為一段或多段第二音頻消息，該第二音頻消息為由連續(xù)人聲組成的音頻消息。能夠通過將音頻消息分為一段或多段只包含連續(xù)人聲的音頻消息，使用戶能夠精確定位并反復收聽音頻消息中的包含人聲的段落，降低對音頻消息播放進度的控制難度，提高用戶體驗。

技術(shù)領(lǐng)域

本公開涉及即時通訊應用設(shè)計領(lǐng)域，具體地，涉及一種音頻消息分段方法、裝置、存儲介質(zhì)和電子設(shè)備。

背景技術(shù)

目前，隨著通信技術(shù)的飛速發(fā)展，通過具備音頻消息傳輸功能的即時通訊應用進行信息交互在人們的生活中越來越普遍。其中，音頻消息通常通過消息觸發(fā)標識被顯示在即時通訊應用的用戶界面上，并在用戶點擊消息觸發(fā)標識時，對相應的音頻消息進行播放。對于持續(xù)時長較長的音頻消息來說，能夠以簡單的方式控制其播放進度，以對持續(xù)時長較長的音頻消息中的某一部分音頻進行反復收聽，成為用戶的需求。因此，有效、準確的控制音頻消息播放進度的方法對于降低用戶操作難度，提高用戶體驗具有至關(guān)重要的價值。

發(fā)明內(nèi)容

本公開的主要目的是提供一種音頻消息分段方法、裝置、存儲介質(zhì)和電子設(shè)備，以解決相關(guān)技術(shù)中對音頻消息中的特定部分進行定位和播放進度的控制時操作難度大并且精確性較低的技術(shù)問題。

為了實現(xiàn)上述目的，本公開第一方面提供一種音頻消息分段方法，所述方法包括：

通過預設(shè)的人聲識別算法確定即時通訊應用接收到的第一音頻消息中是否存在人聲；

若確定所述第一音頻消息中存在人聲，通過預設(shè)的音頻分割算法將所述第一音頻消息轉(zhuǎn)換為一段或多段第二音頻消息，所述第二音頻消息為由連續(xù)人聲組成的音頻消息。

可選的，在所述通過預設(shè)的音頻分割算法將所述第一音頻消息轉(zhuǎn)換為一段或多段第二音頻消息之后，還包括：

根據(jù)每段所述第二音頻消息的起始時間點，在所述即時通訊應用的用戶界面中依次輸出所述一段或多段第二音頻消息對應的一個或多個消息觸發(fā)標識。

可選的，所述通過預設(shè)的人聲識別算法確定第一音頻消息中是否存在人聲，包括：

通過預設(shè)的人聲優(yōu)化方案對所述即時通訊應用接收到的目標音頻消息對應的音頻信號進行處理，以獲取所述第一音頻消息，所述目標音頻消息為持續(xù)時長超過預設(shè)時長的音頻消息；

通過所述人聲識別算法對所述第一音頻消息對應的音頻信號進行檢測，以確定所述第一音頻消息中是否存在人聲。

可選的，所述若確定所述第一音頻消息中存在人聲，通過預設(shè)的音頻分割算法將所述第一音頻消息轉(zhuǎn)換為一段或多段第二音頻消息，包括：

通過所述音頻分割算法識別所述第一音頻消息對應的音頻信號中的由連續(xù)人聲信號組成的非沉默信號段和不包含人聲信號的沉默信號段；

刪除所述音頻信號中的所有所述沉默信號段；

將保留下的每個所述非沉默信號段對應的音頻消息作為所述第二音頻消息，以獲取所述一段或多段第二音頻消息。

本公開第二方面提供一種音頻消息分段裝置，所述裝置包括：

人聲識別模塊，用于通過預設(shè)的人聲識別算法確定即時通訊應用接收到的第一音頻消息中是否存在人聲；

音頻分割模塊，用于通過預設(shè)的音頻分割算法將所述第一音頻消息轉(zhuǎn)換為一段或多段第二音頻消息，所述第二音頻消息為僅包含連續(xù)人聲的音頻消息。

可選的，所述裝置，還包括：

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京三快在線科技有限公司，未經(jīng)北京三快在線科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201910182085.2/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。