[發明專利]字幕生成方法及終端有效
| 申請號: | 201810274629.3 | 申請日: | 2018-03-29 |
| 公開(公告)號: | CN110324723B | 公開(公告)日: | 2022-03-08 |
| 發明(設計)人: | 馬鵬 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | H04N21/488 | 分類號: | H04N21/488;H04N21/442;H04N21/439;G10L15/26 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 郝傳鑫;熊永強 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 字幕 生成 方法 終端 | ||
本申請實施例公開了一種字幕生成方法及終端,方法包括:第一終端獲取麥克風的標識信息,并通過攝像頭采集處于麥克風第一距離內的人臉圖像信息;第一終端根據預先建立的人臉身份信息表,確定人臉圖像信息對應的用戶識別信息為麥克風對應的用戶識別信息;當第一終端接收到麥克風發送的第一語音數據時,第一終端獲取第一語音數據對應的字幕信息,字幕信息包括語音數據對應的文本信息以及麥克風對應的用戶識別信息。第一終端通過第一屏幕顯示第一語音數據對應的字幕信息。采用本發明,第一終端通過建立麥克風與用戶識別信息的對應關系,能夠準確匹配使用該麥克風的發言人的用戶識別信息,并生成字幕顯示,以使參會人員能夠將發言人與字幕對應起來。
技術領域
本申請涉及電子技術領域,尤其涉及一種字幕生成方法及終端。
背景技術
遠程會議指位于兩個或多個地點的人們,通過通信設備和網絡,進行實時交談的會議。由于該場景的聲源場景比較復雜(涉及的參會人數多、口音不一),且語音數據可能因在傳播過程中有損而不夠清晰。因此,遠程會議中僅有聲音或者畫面是不能滿足溝通準確性的需求的。目前,根據會議人員的發言生成相應的字幕并顯示,成為遠程會議的必需之一。
但是,現有的字幕僅僅將發言人發出的語音數據轉換成了文本信息呈現給參會人員,仍然存在的問題就是,無法將發言人與字幕對應起來,也就是說,參會人員雖然能夠通過字幕了解發言所表達的信息,但是并不知道到底是誰說的,甚至無法區分字幕顯示的到底是同一個人的發言還是不同人的發言,因此,現有的字幕生成方案仍然不能滿足遠程會議對于溝通準確性和便利性的要求。
發明內容
本申請實施例提供一種字幕生成方法及終端,以期滿足遠程會議對溝通準確性和便利性的要求。
第一方面,本申請實施例提供了一種字幕生成方法,包括:
第一終端獲取麥克風的標識信息,并通過攝像頭采集處于麥克風第一距離內的人臉圖像信息;
第一終端根據預先建立的人臉身份信息表,確定人臉圖像信息對應的用戶識別信息為麥克風對應的用戶識別信息;
當第一終端接收到麥克風發送的第一語音數據時,第一終端獲取第一語音數據對應的字幕信息,字幕信息包括第一語音數據對應的文本信息以及麥克風對應的用戶識別信息;
第一終端通過第一屏幕顯示第一語音數據對應的字幕信息。
在該技術方案中,第一終端通過建立麥克風與其第一距離內的人臉圖像信息對應的用戶識別信息的對應關系,能夠在第一終端接收到麥克風發送的第一語音數據時,準確地匹配出使用該麥克風發言的發言人的用戶識別信息,從而可以結合語音數據對應的文本信息以及麥克風對應的用戶識別信息生成字幕顯示給參會人員,以使參會人員能夠將發言人與字幕對應起來,從而滿足遠程會議對于溝通準確性和便利性的要求。
在一種設計中,第一終端獲取第一語音數據對應的字幕信息包括:
第一終端對第一語音數據進行語音識別得到第一語音數據對應的文本信息。
在一種設計中,該方法還包括:
第一終端向第二終端發送第一語音數據對應的字幕信息,第一語音數據對應的字幕信息被第二終端通過第二屏幕顯示,第二終端為與第一終端進行語音交互的終端。
在該技術方案中,第一終端將自身采集的第一語音數據生成的對應的字幕信息發送給第二終端,以使與第一終端進行遠程會議的各個會場的參會人員,也可以通過第二屏幕呈現第一終端所在會場的發言人講話的字幕信息。
在一種設計中,該方法還包括:
第一終端接收第二終端發送的第二終端采集的第二語音數據對應的字幕信息;
第一終端通過第一屏幕顯示第二語音數據對應的字幕信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810274629.3/2.html,轉載請聲明來源鉆瓜專利網。





