[發(fā)明專利]結合音視頻的多人會議實時展示的方法、介質和電子設備在審
| 申請?zhí)枺?/td> | 202010768772.5 | 申請日: | 2020-08-03 |
| 公開(公告)號: | CN111818294A | 公開(公告)日: | 2020-10-23 |
| 發(fā)明(設計)人: | 呂安旗;鄭達;李索恒;張志齊 | 申請(專利權)人: | 上海依圖信息技術有限公司 |
| 主分類號: | H04N7/15 | 分類號: | H04N7/15;H04N21/43;H04N21/431;H04N21/488;G10L15/26;G10L17/00;G10L21/028;G06F16/432;G06K9/00 |
| 代理公司: | 上海華誠知識產權代理有限公司 31300 | 代理人: | 徐穎聰 |
| 地址: | 200233 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 結合 視頻 會議 實時 展示 方法 介質 電子設備 | ||
本申請?zhí)峁┮环N結合音視頻的多人會議實時展示的方法、介質和電子設備,該方法包括:獲取參會人員中發(fā)言人的音頻數(shù)據(jù);對音頻數(shù)據(jù)進行語音識別處理,得到發(fā)言人的文本信息;將文本信息同步且實時展示在包含發(fā)言人的會議視頻中發(fā)言人對應的區(qū)域,每個發(fā)言人的文本信息和每個發(fā)言人在會議視頻中的位置一一對應。本申請實現(xiàn)了同步且實時地結合發(fā)言人文本信息和會議視頻,同時將文本信息展示在會議視頻中發(fā)言人對應區(qū)域,使得發(fā)言人的說話內容易于區(qū)分。因為視頻和文字可同步記錄,使得記錄的形式多樣、清晰,方便后續(xù)閱讀和理解。
技術領域
本發(fā)明涉及信息處理技術領域,特別涉及結合音視頻的多人會議實時展示的方法、介質和電子設備。
背景技術
隨著互聯(lián)網技術的深度應用,各類終端設備的普及程度越來越高,目前已有不少語音產品能夠支持對會議發(fā)言進行實時轉寫,并將轉寫內容展示在屏幕上,方便其他參會者閱讀。但現(xiàn)有的會議轉寫系統(tǒng)也存在一些缺陷:在多人同時發(fā)言的情況下,往往難以區(qū)分多個發(fā)言者身份及其對應的發(fā)言內容,會議記錄的內容較混亂,會議記錄內容質量較低,并且通常是基于參會者手動進行記錄,非常容易遺漏或者記錄錯誤,效率低;另外僅僅使用文字進行展示/記錄會議內容,展示/記錄形式上比較單一,無法充分利用會議記錄內容。
發(fā)明內容
本發(fā)明提供一種結合音視頻的多人會議實時展示的方法,該方法包括:
獲取參會人員中發(fā)言人的音頻數(shù)據(jù);對音頻數(shù)據(jù)進行語音識別處理,得到發(fā)言人的文本信息;將文本信息同步且實時展示在包含發(fā)言人的會議視頻中發(fā)言人對應的區(qū)域,每個發(fā)言人的文本信息和每個發(fā)言人在會議視頻中的位置一一對應。
根據(jù)本申請的實施方式,在會議中,將發(fā)言人的說話的文本信息展示在會議視頻中發(fā)言人對應的區(qū)域,實現(xiàn)了發(fā)言內容和發(fā)言人的實時對應,提高了參會人員會議溝通時的智能化體驗。
在一些實施例中,將文本信息同步且實時展示在包含發(fā)言人的會議視頻中發(fā)言人對應的區(qū)域,包括:分析音頻數(shù)據(jù),確定發(fā)言人的聲音特征信息;將發(fā)言人的聲音特征信息與數(shù)據(jù)庫中參會人員的認證信息進行匹配,得到發(fā)言人的臉部特征信息,其中認證信息包括聲音特征信息和臉部特征信息;利用發(fā)言人的臉部特征信息,獲取會議視頻;將文本信息同步且實時展示在會議視頻中發(fā)言人對應的區(qū)域。
根據(jù)本申請的實施方式,利用聲音特征信息和臉部特征信息區(qū)分發(fā)言人的功能,實現(xiàn)了音頻數(shù)據(jù)和視頻中發(fā)言人對應關系的確認,從而可實現(xiàn)將發(fā)言人的文本信息結合在會議視頻中對應發(fā)言人的位置。
在一些實施例中,還包括:根據(jù)發(fā)言人的音頻數(shù)據(jù)判斷是否有多人在說話;當判斷出發(fā)言人數(shù)量為多個時,則先對音頻數(shù)據(jù)進行說話人分離,再進行對音頻數(shù)據(jù)進行語音識別處理和分析音頻數(shù)據(jù);當判斷出發(fā)言人數(shù)量為一個時,則直接進行對音頻數(shù)據(jù)進行語音識別處理和分析音頻數(shù)據(jù)。
根據(jù)本申請的實施方式,在一些混合多位發(fā)言人的音頻數(shù)據(jù)中,基于音頻數(shù)據(jù)判斷出是否有多人在說話,并通過增加說話人分離的方法來確定時間、文本信息和發(fā)言人的對應關系,進而實現(xiàn)了將發(fā)言人的文本信息結合在會議視頻中對應發(fā)言人的位置。
在一些實施例中,還包括:根據(jù)會議視頻判斷是否有多人在說話;當判斷出發(fā)言人數(shù)量為多個時,則先對音頻數(shù)據(jù)進行說話人分離,再進行對音頻數(shù)據(jù)進行語音識別處理和分析音頻數(shù)據(jù);當判斷出發(fā)言人數(shù)量為一個時,則直接進行對音頻數(shù)據(jù)進行語音識別處理和分析音頻數(shù)據(jù)。
根據(jù)本申請的實施方式,在一些混合多位發(fā)言人的音頻數(shù)據(jù)中,基于會議視頻判斷出是否有多人在說話,并通過增加說話人分離的方法來確定時間、文本信息和發(fā)言人的對應關系,進而實現(xiàn)了將發(fā)言人的文本信息結合在會議視頻中對應發(fā)言人的位置。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海依圖信息技術有限公司,未經上海依圖信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010768772.5/2.html,轉載請聲明來源鉆瓜專利網。





