[發(fā)明專利]結合音視頻的多人會議實時展示的方法、介質和電子設備在審

申請?zhí)枺?/td>	202010768772.5	申請日：	2020-08-03
公開（公告）號：	CN111818294A	公開（公告）日：	2020-10-23
發(fā)明（設計）人：	呂安旗;鄭達;李索恒;張志齊	申請（專利權）人：	上海依圖信息技術有限公司
主分類號：	H04N7/15	分類號：	H04N7/15;H04N21/43;H04N21/431;H04N21/488;G10L15/26;G10L17/00;G10L21/028;G06F16/432;G06K9/00
代理公司：	上海華誠知識產權代理有限公司 31300	代理人：	徐穎聰
地址：	200233 上海市***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	結合視頻會議實時展示方法介質電子設備
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請?zhí)峁┮环N結合音視頻的多人會議實時展示的方法、介質和電子設備，該方法包括：獲取參會人員中發(fā)言人的音頻數(shù)據(jù)；對音頻數(shù)據(jù)進行語音識別處理，得到發(fā)言人的文本信息；將文本信息同步且實時展示在包含發(fā)言人的會議視頻中發(fā)言人對應的區(qū)域，每個發(fā)言人的文本信息和每個發(fā)言人在會議視頻中的位置一一對應。本申請實現(xiàn)了同步且實時地結合發(fā)言人文本信息和會議視頻，同時將文本信息展示在會議視頻中發(fā)言人對應區(qū)域，使得發(fā)言人的說話內容易于區(qū)分。因為視頻和文字可同步記錄，使得記錄的形式多樣、清晰，方便后續(xù)閱讀和理解。

技術領域

本發(fā)明涉及信息處理技術領域，特別涉及結合音視頻的多人會議實時展示的方法、介質和電子設備。

背景技術

隨著互聯(lián)網技術的深度應用，各類終端設備的普及程度越來越高，目前已有不少語音產品能夠支持對會議發(fā)言進行實時轉寫，并將轉寫內容展示在屏幕上，方便其他參會者閱讀。但現(xiàn)有的會議轉寫系統(tǒng)也存在一些缺陷：在多人同時發(fā)言的情況下，往往難以區(qū)分多個發(fā)言者身份及其對應的發(fā)言內容，會議記錄的內容較混亂，會議記錄內容質量較低，并且通常是基于參會者手動進行記錄，非常容易遺漏或者記錄錯誤，效率低；另外僅僅使用文字進行展示/記錄會議內容，展示/記錄形式上比較單一，無法充分利用會議記錄內容。

發(fā)明內容

本發(fā)明提供一種結合音視頻的多人會議實時展示的方法，該方法包括：

獲取參會人員中發(fā)言人的音頻數(shù)據(jù)；對音頻數(shù)據(jù)進行語音識別處理，得到發(fā)言人的文本信息；將文本信息同步且實時展示在包含發(fā)言人的會議視頻中發(fā)言人對應的區(qū)域，每個發(fā)言人的文本信息和每個發(fā)言人在會議視頻中的位置一一對應。

根據(jù)本申請的實施方式，在會議中，將發(fā)言人的說話的文本信息展示在會議視頻中發(fā)言人對應的區(qū)域，實現(xiàn)了發(fā)言內容和發(fā)言人的實時對應，提高了參會人員會議溝通時的智能化體驗。

在一些實施例中，將文本信息同步且實時展示在包含發(fā)言人的會議視頻中發(fā)言人對應的區(qū)域，包括：分析音頻數(shù)據(jù)，確定發(fā)言人的聲音特征信息；將發(fā)言人的聲音特征信息與數(shù)據(jù)庫中參會人員的認證信息進行匹配，得到發(fā)言人的臉部特征信息，其中認證信息包括聲音特征信息和臉部特征信息；利用發(fā)言人的臉部特征信息，獲取會議視頻；將文本信息同步且實時展示在會議視頻中發(fā)言人對應的區(qū)域。

根據(jù)本申請的實施方式，利用聲音特征信息和臉部特征信息區(qū)分發(fā)言人的功能，實現(xiàn)了音頻數(shù)據(jù)和視頻中發(fā)言人對應關系的確認，從而可實現(xiàn)將發(fā)言人的文本信息結合在會議視頻中對應發(fā)言人的位置。

在一些實施例中，還包括：根據(jù)發(fā)言人的音頻數(shù)據(jù)判斷是否有多人在說話；當判斷出發(fā)言人數(shù)量為多個時，則先對音頻數(shù)據(jù)進行說話人分離，再進行對音頻數(shù)據(jù)進行語音識別處理和分析音頻數(shù)據(jù)；當判斷出發(fā)言人數(shù)量為一個時，則直接進行對音頻數(shù)據(jù)進行語音識別處理和分析音頻數(shù)據(jù)。

根據(jù)本申請的實施方式，在一些混合多位發(fā)言人的音頻數(shù)據(jù)中，基于音頻數(shù)據(jù)判斷出是否有多人在說話，并通過增加說話人分離的方法來確定時間、文本信息和發(fā)言人的對應關系，進而實現(xiàn)了將發(fā)言人的文本信息結合在會議視頻中對應發(fā)言人的位置。

在一些實施例中，還包括：根據(jù)會議視頻判斷是否有多人在說話；當判斷出發(fā)言人數(shù)量為多個時，則先對音頻數(shù)據(jù)進行說話人分離，再進行對音頻數(shù)據(jù)進行語音識別處理和分析音頻數(shù)據(jù)；當判斷出發(fā)言人數(shù)量為一個時，則直接進行對音頻數(shù)據(jù)進行語音識別處理和分析音頻數(shù)據(jù)。

根據(jù)本申請的實施方式，在一些混合多位發(fā)言人的音頻數(shù)據(jù)中，基于會議視頻判斷出是否有多人在說話，并通過增加說話人分離的方法來確定時間、文本信息和發(fā)言人的對應關系，進而實現(xiàn)了將發(fā)言人的文本信息結合在會議視頻中對應發(fā)言人的位置。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于上海依圖信息技術有限公司，未經上海依圖信息技術有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010768772.5/2.html，轉載請聲明來源鉆瓜專利網。