[發(fā)明專利]一種音頻播放延遲AI修正方法和裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202011484031.0 | 申請(qǐng)日: | 2020-12-16 |
| 公開(公告)號(hào): | CN112735463A | 公開(公告)日: | 2021-04-30 |
| 發(fā)明(設(shè)計(jì))人: | 林東姝 | 申請(qǐng)(專利權(quán))人: | 杭州小伴熊科技有限公司 |
| 主分類號(hào): | G10L21/055 | 分類號(hào): | G10L21/055;G10L25/30 |
| 代理公司: | 中國(guó)和平利用軍工技術(shù)協(xié)會(huì)專利中心 11215 | 代理人: | 劉光德 |
| 地址: | 310051 浙江省杭州市濱江*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 音頻 播放 延遲 ai 修正 方法 裝置 | ||
本發(fā)明涉及一種安卓移動(dòng)端設(shè)備音頻播放延遲的AI修正方法,包括:控制音頻芯片在預(yù)定的時(shí)間間隔測(cè)量傳入的模擬音頻流信號(hào);將上述模擬音頻流信號(hào)轉(zhuǎn)換為數(shù)字音頻流信號(hào)后輸入緩沖區(qū);其中緩沖區(qū)的大小隨著不同總線設(shè)置而不同;監(jiān)控緩沖區(qū)的數(shù)據(jù)量,使用基于機(jī)器學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),基于緩沖區(qū)中的數(shù)據(jù)量動(dòng)態(tài)調(diào)整音頻參數(shù);修正并播放音頻。
技術(shù)領(lǐng)域
本發(fā)明涉及語音信號(hào)處理技術(shù)領(lǐng)域,特別涉及一種安卓移動(dòng)端設(shè)備音頻播放延遲AI修正方法和裝置。
背景技術(shù)
聲音延遲可以被定義為“信號(hào)通過系統(tǒng)的時(shí)間”。在移動(dòng)設(shè)備中,聲音延遲關(guān)系到用戶點(diǎn)擊屏幕后多久可以接收到聲音的反饋。如果聲音延遲太久,會(huì)讓用戶感覺到卡頓感,技術(shù)畫面很順滑聲音慢了一樣讓人感到很不愉悅。
低延遲在各個(gè)應(yīng)用場(chǎng)景中帶來的問題主要有:樂器應(yīng)用和音效應(yīng)用:音頻家無法在舞臺(tái)上演奏,使用Android設(shè)備的演奏者總比其它人慢半拍。甚至無法用于練習(xí)。DJ無法進(jìn)行節(jié)拍匹配,因?yàn)樗麄冊(cè)诙鷻C(jī)聽到的信號(hào)要遠(yuǎn)遠(yuǎn)落后于播放給聽眾的主信號(hào)。使用循環(huán)滾動(dòng)或回聲等效果也是非常困難的。游戲、聲音效果,例如爆炸和槍聲會(huì)卡頓延遲幾幀,使游戲音頻“超脫”于視覺效果,這種糟糕的用戶感受,無法帶來身臨其境的游戲體驗(yàn)。VoIP應(yīng)用,如Skype:如果用戶使用的是Android手機(jī),整體的音頻延遲要高于網(wǎng)絡(luò)延遲。也就是說,通過安卓系統(tǒng)所花費(fèi)的時(shí)間比數(shù)據(jù)包在各大洲之間傳輸?shù)臅r(shí)間要更長(zhǎng)。虛擬現(xiàn)實(shí)VR:當(dāng)用戶轉(zhuǎn)頭,音頻“跟隨”變化太晚,破壞了三維音頻的體驗(yàn)。去試試Paul McCartney的Google紙板眼鏡的app就是一個(gè)例子。Google將會(huì)在虛擬現(xiàn)實(shí)領(lǐng)域?qū)⑹畠|美元的收入拱手讓給蘋果。
可見,低聲音延遲已經(jīng)是現(xiàn)代操作系統(tǒng)中不可或缺的基礎(chǔ)功能,但是在Android設(shè)備上,由于各個(gè)廠家制定的標(biāo)準(zhǔn)不統(tǒng)一,采用的硬件方案不同,所以延遲問題十分突出。
發(fā)明內(nèi)容
鑒于上述的分析,本發(fā)明旨在提供一種安卓移動(dòng)端設(shè)備音頻播放延遲AI修正方法和裝置。其提供一種克服上述問題或者至少部分地解決上述問題的方法、裝置。
根據(jù)本發(fā)明的一個(gè)方面,提供了一種安卓移動(dòng)端設(shè)備音頻播放延遲的AI修正方法,
控制音頻芯片在預(yù)定的時(shí)間間隔測(cè)量傳入的模擬音頻流信號(hào);
將上述模擬音頻流信號(hào)轉(zhuǎn)換為數(shù)字音頻流信號(hào)后輸入緩沖區(qū),其中緩沖區(qū)的大小根據(jù)總線類型設(shè)置;
監(jiān)控緩沖區(qū)的數(shù)據(jù)量,將當(dāng)前的音頻參數(shù)輸入基于機(jī)器學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),得到根據(jù)緩沖區(qū)中的數(shù)據(jù)量而產(chǎn)生的動(dòng)態(tài)音頻參數(shù);
根據(jù)所述動(dòng)態(tài)音頻參數(shù)修正并播放音頻。
可選地,其中所述音頻參數(shù)包括采樣率,聲道和比特率。
可選地,動(dòng)態(tài)調(diào)整音頻參數(shù)位于音頻硬件抽象層(HAL)。
可選地,其中在AudioFlinger層建立通道,如果用戶程序使用的是原生代碼并以原生的硬件采樣率和周期大小設(shè)置音頻緩沖隊(duì)列,此時(shí)則不會(huì)進(jìn)行重采樣,也不會(huì)對(duì)緩沖區(qū)大小進(jìn)行修改,如果程序請(qǐng)求的緩沖采樣率不同于原生的采樣率,則需進(jìn)行重采樣。
可選地,其中AudioRecord不從AudioFlinger層請(qǐng)求新的緩沖。
可選地,音頻流信號(hào)可通過總線從音頻芯片傳輸至GPU。
可選地,所述總線包括:USB、PCI、火線。
根據(jù)本發(fā)明的一個(gè)方面,提供了一種安卓移動(dòng)端設(shè)備音頻播放延遲的AI修正裝置,
包括音頻導(dǎo)入模塊101,用于控制音頻芯片在預(yù)定的時(shí)間間隔測(cè)量傳入的模擬音頻流信號(hào),將上述模擬音頻流信號(hào)轉(zhuǎn)換為數(shù)字音頻流信號(hào)后輸入緩沖區(qū),其中緩沖區(qū)的大小根據(jù)總線類型設(shè)置;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州小伴熊科技有限公司,未經(jīng)杭州小伴熊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011484031.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 自動(dòng)配置藍(lán)牙A2DP傳輸音頻編碼格式的方法和系統(tǒng)
- 一種多路音頻處理方法、音頻播放終端及音頻接收裝置
- 一種音頻處理方法、裝置及終端設(shè)備
- 一種音頻質(zhì)量的檢測(cè)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 音頻分離方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種音頻播放方法、裝置、以及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 一種音頻錄制系統(tǒng)
- 一種音頻共享系統(tǒng)及方法
- 音頻樣本生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 音頻處理方法和裝置
- AI接口平臺(tái)及其應(yīng)用方法、AI應(yīng)用系統(tǒng)
- AI行為調(diào)用方法和裝置
- 人工智能平臺(tái)實(shí)現(xiàn)方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 人工智能的病種分析方法及裝置、存儲(chǔ)介質(zhì)、計(jì)算機(jī)設(shè)備
- 一種處理AI任務(wù)的方法及裝置
- 提供AI模型的方法、AI平臺(tái)、計(jì)算設(shè)備及存儲(chǔ)介質(zhì)
- 一種自適應(yīng)AI模型部署方法
- 分離AI中的公共知識(shí)與私有知識(shí)
- 應(yīng)用于城市大腦的AI算法和AI模型的調(diào)配系統(tǒng)及方法
- 云服務(wù)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





