[發(fā)明專利]一種音頻播放延遲AI修正方法和裝置在審

申請(qǐng)?zhí)枺?/td>	202011484031.0	申請(qǐng)日：	2020-12-16
公開（公告）號(hào)：	CN112735463A	公開（公告）日：	2021-04-30
發(fā)明（設(shè)計(jì)）人：	林東姝	申請(qǐng)（專利權(quán)）人：	杭州小伴熊科技有限公司
主分類號(hào)：	G10L21/055	分類號(hào)：	G10L21/055;G10L25/30
代理公司：	中國(guó)和平利用軍工技術(shù)協(xié)會(huì)專利中心 11215	代理人：	劉光德
地址：	310051 浙江省杭州市濱江***	國(guó)省代碼：	浙江;33
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種音頻播放延遲 ai 修正方法裝置
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫(kù) 專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明涉及一種安卓移動(dòng)端設(shè)備音頻播放延遲的AI修正方法，包括：控制音頻芯片在預(yù)定的時(shí)間間隔測(cè)量傳入的模擬音頻流信號(hào)；將上述模擬音頻流信號(hào)轉(zhuǎn)換為數(shù)字音頻流信號(hào)后輸入緩沖區(qū)；其中緩沖區(qū)的大小隨著不同總線設(shè)置而不同；監(jiān)控緩沖區(qū)的數(shù)據(jù)量，使用基于機(jī)器學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)，基于緩沖區(qū)中的數(shù)據(jù)量動(dòng)態(tài)調(diào)整音頻參數(shù)；修正并播放音頻。

技術(shù)領(lǐng)域

本發(fā)明涉及語音信號(hào)處理技術(shù)領(lǐng)域，特別涉及一種安卓移動(dòng)端設(shè)備音頻播放延遲AI修正方法和裝置。

背景技術(shù)

聲音延遲可以被定義為“信號(hào)通過系統(tǒng)的時(shí)間”。在移動(dòng)設(shè)備中，聲音延遲關(guān)系到用戶點(diǎn)擊屏幕后多久可以接收到聲音的反饋。如果聲音延遲太久，會(huì)讓用戶感覺到卡頓感，技術(shù)畫面很順滑聲音慢了一樣讓人感到很不愉悅。

低延遲在各個(gè)應(yīng)用場(chǎng)景中帶來的問題主要有：樂器應(yīng)用和音效應(yīng)用：音頻家無法在舞臺(tái)上演奏，使用Android設(shè)備的演奏者總比其它人慢半拍。甚至無法用于練習(xí)。DJ無法進(jìn)行節(jié)拍匹配，因?yàn)樗麄冊(cè)诙鷻C(jī)聽到的信號(hào)要遠(yuǎn)遠(yuǎn)落后于播放給聽眾的主信號(hào)。使用循環(huán)滾動(dòng)或回聲等效果也是非常困難的。游戲、聲音效果，例如爆炸和槍聲會(huì)卡頓延遲幾幀，使游戲音頻“超脫”于視覺效果，這種糟糕的用戶感受，無法帶來身臨其境的游戲體驗(yàn)。VoIP應(yīng)用，如Skype：如果用戶使用的是Android手機(jī)，整體的音頻延遲要高于網(wǎng)絡(luò)延遲。也就是說，通過安卓系統(tǒng)所花費(fèi)的時(shí)間比數(shù)據(jù)包在各大洲之間傳輸?shù)臅r(shí)間要更長(zhǎng)。虛擬現(xiàn)實(shí)VR：當(dāng)用戶轉(zhuǎn)頭，音頻“跟隨”變化太晚，破壞了三維音頻的體驗(yàn)。去試試Paul McCartney的Google紙板眼鏡的app就是一個(gè)例子。Google將會(huì)在虛擬現(xiàn)實(shí)領(lǐng)域?qū)⑹畠|美元的收入拱手讓給蘋果。

可見，低聲音延遲已經(jīng)是現(xiàn)代操作系統(tǒng)中不可或缺的基礎(chǔ)功能，但是在Android設(shè)備上，由于各個(gè)廠家制定的標(biāo)準(zhǔn)不統(tǒng)一，采用的硬件方案不同，所以延遲問題十分突出。

發(fā)明內(nèi)容

鑒于上述的分析，本發(fā)明旨在提供一種安卓移動(dòng)端設(shè)備音頻播放延遲AI修正方法和裝置。其提供一種克服上述問題或者至少部分地解決上述問題的方法、裝置。

根據(jù)本發(fā)明的一個(gè)方面，提供了一種安卓移動(dòng)端設(shè)備音頻播放延遲的AI修正方法，

控制音頻芯片在預(yù)定的時(shí)間間隔測(cè)量傳入的模擬音頻流信號(hào)；

將上述模擬音頻流信號(hào)轉(zhuǎn)換為數(shù)字音頻流信號(hào)后輸入緩沖區(qū)，其中緩沖區(qū)的大小根據(jù)總線類型設(shè)置；

監(jiān)控緩沖區(qū)的數(shù)據(jù)量，將當(dāng)前的音頻參數(shù)輸入基于機(jī)器學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)，得到根據(jù)緩沖區(qū)中的數(shù)據(jù)量而產(chǎn)生的動(dòng)態(tài)音頻參數(shù)；

根據(jù)所述動(dòng)態(tài)音頻參數(shù)修正并播放音頻。

可選地，其中所述音頻參數(shù)包括采樣率，聲道和比特率。

可選地，動(dòng)態(tài)調(diào)整音頻參數(shù)位于音頻硬件抽象層(HAL)。

可選地，其中在AudioFlinger層建立通道，如果用戶程序使用的是原生代碼并以原生的硬件采樣率和周期大小設(shè)置音頻緩沖隊(duì)列，此時(shí)則不會(huì)進(jìn)行重采樣，也不會(huì)對(duì)緩沖區(qū)大小進(jìn)行修改，如果程序請(qǐng)求的緩沖采樣率不同于原生的采樣率，則需進(jìn)行重采樣。

可選地，其中AudioRecord不從AudioFlinger層請(qǐng)求新的緩沖。

可選地，音頻流信號(hào)可通過總線從音頻芯片傳輸至GPU。

可選地，所述總線包括：USB、PCI、火線。

根據(jù)本發(fā)明的一個(gè)方面，提供了一種安卓移動(dòng)端設(shè)備音頻播放延遲的AI修正裝置，

包括音頻導(dǎo)入模塊101，用于控制音頻芯片在預(yù)定的時(shí)間間隔測(cè)量傳入的模擬音頻流信號(hào)，將上述模擬音頻流信號(hào)轉(zhuǎn)換為數(shù)字音頻流信號(hào)后輸入緩沖區(qū)，其中緩沖區(qū)的大小根據(jù)總線類型設(shè)置；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州小伴熊科技有限公司，未經(jīng)杭州小伴熊科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011484031.0/2.html，轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

上一篇：充電電池組均衡控制電路及均衡控制方法
下一篇：一種汽車用傳感器生產(chǎn)設(shè)備及其生產(chǎn)工藝

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識(shí)別；音頻分析或處理
G10L21-00 為了改變語音信號(hào)的質(zhì)量或其可識(shí)度而處理語音信號(hào)，以產(chǎn)生另一種可聽的或非可聽的信號(hào)，例如視覺信號(hào)或觸覺信號(hào)
G10L21-02 .語音增強(qiáng)，例如降低噪聲或消除回聲
G10L21-04 .時(shí)間壓縮或擴(kuò)展
G10L21-06 .將語音轉(zhuǎn)換成非可聽表達(dá)形式，例如語音可視化、觸覺輔助的語音處理

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】