[發(fā)明專利]音視頻通話的處理方法、系統(tǒng)、編解碼器及存儲裝置有效
| 申請?zhí)枺?/td> | 202010553456.6 | 申請日: | 2020-06-17 |
| 公開(公告)號: | CN111654658B | 公開(公告)日: | 2022-04-15 |
| 發(fā)明(設(shè)計)人: | 葉權(quán)鋒 | 申請(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號: | H04N7/14 | 分類號: | H04N7/14;H04N7/15;G10L15/26 |
| 代理公司: | 深圳國新南方知識產(chǎn)權(quán)代理有限公司 44374 | 代理人: | 張曾明 |
| 地址: | 518000 廣東省深圳市福田區(qū)福*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 視頻 通話 處理 方法 系統(tǒng) 編解碼器 存儲 裝置 | ||
本發(fā)明公開了一種音視頻通話的處理方法,包括實時采集通話過程中的音視頻數(shù)據(jù);將所述音視頻數(shù)據(jù)輸入到語音轉(zhuǎn)換模塊,所述語音轉(zhuǎn)換模塊根據(jù)預設(shè)音轉(zhuǎn)字參數(shù)實時識別所述音視頻數(shù)據(jù),以得到音轉(zhuǎn)字消息;將所述音轉(zhuǎn)字消息發(fā)送到消息處理模塊,所述消息處理模塊通過預設(shè)緩存排序策略將所述音轉(zhuǎn)字消息按通話正常順序進行排序;將已排序的音轉(zhuǎn)字消息進行展示。本發(fā)明所述處理方法滿足了用戶在不同音視頻通話、線上會議場景下對發(fā)言人的內(nèi)容進行自定義展示處理,不僅方便用戶理解,還提高了各方在溝通上的效率。本發(fā)明還公開了一種音視頻通話的處理系統(tǒng)、編解碼器及存儲裝置。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種音視頻通話的處理方法、系統(tǒng)、編解碼器及存儲裝置。
背景技術(shù)
音視頻通話作為主流通訊軟件中的一項基礎(chǔ)功能,解決了人與人之間跨地區(qū)的溝通阻礙。音視頻通話技術(shù)在企業(yè)辦公軟件中更是一項標配功能,釘釘、LARK等企業(yè)級應用正逐漸廣泛推廣語音、視頻會議,這能幫助企業(yè)提高協(xié)同效率,讓決策盡快落地。
傳統(tǒng)的音視頻通話經(jīng)常面臨網(wǎng)絡(luò)不穩(wěn)定、丟包、延時等問題導致通話質(zhì)量不佳、聲音不連續(xù),十分影響用戶通話體驗。辦公場景下的會議模式就更為復雜,會議中不可避免會出現(xiàn)討論,多路聲源并進而無法分辨聲音的問題。同時,音視頻通話中碰到有外國人員參會,語言溝通就會成為最大障礙。在大多數(shù)場景下,需要有固定的翻譯人員在場,這大大加大了人力成本,也造成了一定的溝通延時。從而,音視頻的實時字幕展示與自動翻譯顯得尤為重要。
發(fā)明內(nèi)容
本發(fā)明提供一種音視頻通話的處理方法、系統(tǒng)、編解碼器及存儲裝置,其主要目的在于實現(xiàn)音視頻的實時字幕展示與自動翻譯,可以方便用戶理解,還能降低人工翻譯成本,并提高各方在溝通上的效率。
為實現(xiàn)上述目的,本發(fā)明提供一種音視頻通話的處理方法,包括:
實時采集通話過程中的音視頻數(shù)據(jù);
將所述音視頻數(shù)據(jù)輸入到語音轉(zhuǎn)換模塊,所述語音轉(zhuǎn)換模塊根據(jù)預設(shè)音轉(zhuǎn)字參數(shù)實時識別所述音視頻數(shù)據(jù),以得到音轉(zhuǎn)字消息;
將所述音轉(zhuǎn)字消息發(fā)送到消息處理模塊,所述消息處理模塊通過預設(shè)緩存排序策略將所述音轉(zhuǎn)字消息按通話正常順序進行排序;
將已排序的音轉(zhuǎn)字消息進行展示。
優(yōu)選的,在所述音轉(zhuǎn)字消息發(fā)送到消息處理模塊之前,將所述音轉(zhuǎn)字消息發(fā)送到語言翻譯模塊以獲取目標語言的音轉(zhuǎn)字消息,所述目標語言的音轉(zhuǎn)字消息再傳輸至消息處理模塊。
優(yōu)選的,所述預設(shè)音轉(zhuǎn)字參數(shù)包括消息序號參數(shù)、語句序號參數(shù)、語音識別斷句參數(shù)、時間戳參數(shù)、用戶參數(shù)以及文本參數(shù),其中,所述消息序號參數(shù)用于音轉(zhuǎn)字消息排序,所述語句序號參數(shù)用于判斷音轉(zhuǎn)字消息是否是同一句話,所述語音斷句參數(shù)用于判斷音轉(zhuǎn)字消息的語句是否結(jié)束,所述時間戳參數(shù)用于標記音轉(zhuǎn)字消息的時間,所述用戶參數(shù)為用戶信息,所述文本參數(shù)為音轉(zhuǎn)字消息。
優(yōu)選的,所述消息處理模塊包括緩存消息隊列和計時器,所述緩存消息隊列用于緩存先到達但非接下來要展示的消息,所述計時器用于等待消息序號的消息到達,超時將跳過該消息序號的消息。
優(yōu)選的,所述緩存消息隊列所接收消息與已展示消息相比,若時間戳較小,則不處理。
優(yōu)選的,判斷計時器是否開啟,若沒有開啟,當緩存消息隊列中沒有數(shù)據(jù),則直接展示當前消息,否則,當前消息進入緩存消息隊列,等待處理;若開啟,判斷當前消息是否為計時器等待的消息序號,若是,關(guān)閉計時器并發(fā)送當前消息至屏幕模塊展示,否則,當前消息進入緩存消息隊列,等待處理。
優(yōu)選的,所述計時器預設(shè)有時間閾值,在該時間閾值內(nèi)未收到目標消息序號消息,則跳過所述目標消息序號消息,并關(guān)閉計時器,從緩存消息隊列中查找最早的一條消息,并發(fā)送屏幕模塊展示。
此外,為實現(xiàn)上述目的,本發(fā)明還提供一種音視頻通話的處理系統(tǒng),包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010553456.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





