[發明專利]一種視頻會議語音識別方法及系統在審
| 申請號: | 202111058454.0 | 申請日: | 2021-09-09 |
| 公開(公告)號: | CN113542661A | 公開(公告)日: | 2021-10-22 |
| 發明(設計)人: | 李鵬 | 申請(專利權)人: | 北京鼎天宏盛科技有限公司 |
| 主分類號: | H04N7/15 | 分類號: | H04N7/15;G10L15/26 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100020 北京市朝陽區工人體*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 視頻會議 語音 識別 方法 系統 | ||
本發明公開了一種視頻會議語音識別方法及系統,涉及會議語音識技術領域,本發明實施例對參會的各麥克風進行編號,每個麥克風編號唯一,記錄麥克風編號及該麥克風發出的語音,待生成會議文本后將講話者的名稱替換麥克風編號生成最終會議文本;操作簡單,且不會存在識別錯誤的情況。可以快速定位會議的重點內容,且只需要保持會議重點音頻或視頻即可,節約內存。能夠一邊開會議一邊發生音頻。達到預設網絡標準再傳輸會議語音,避免數據丟失。
技術領域
本發明涉及會議語音識別技術領域,具體而言,涉及一種視頻會議語音識別方法及系統。
背景技術
遠程會議是指利用現代化的通訊手段,實現跨區域召開會議的目的。要召開遠程會議,通常需要有通信線路、遠程會議系統,當然在某些情況下還需要專業的服務來協助獲得更好的遠程會議效果。遠程會議系統主要包含音頻會議和視頻會議。
現有技術中遠程會議存在以下缺陷:
參會者需要對會議內容進行回顧調閱,雖然可以全程錄制會議,但是錄制整個會議過程以及把一個會議視頻全部看完或會議音頻全部聽完耗時耗力,需要拉進度條或快進播放定位會議的重點內容,容易遺漏重點內容,且費時費力,保存整個會議的音頻或視頻也會耗費大量內存;
錄制語音后需要將音頻上傳至轉寫服務器以生成文字,當參會者所在地網絡狀態欠佳時,若強行將音頻通過網絡發送給轉寫服務器會出現數據丟失等情況。
發明內容
為了克服上述問題或者至少部分地解決上述問題,本發明實施例提供一種視頻會議語音識別方法及系統,以快速定位會議的重點內容及避免數據丟失。
本發明的實施例是這樣實現的:
第一方面,本發明實施例提供一種視頻會議語音識別方法,包括:
S1:對參會的麥克風進行編號,每個麥克風編號唯一;
S2:參會的麥克風中的任一麥克風若接收到開始記錄會議指令,則開始對當前會議語音進行錄音;
S3:若接收到停止記錄會議指令,則停止錄音,將開始至停止的這段時間的錄音打包生成語音包并離線存儲至存儲器中;
S4:重復S2-S3,當存儲器存儲的多個語音包的占用容量累加達到第一預設容量時,檢測網絡傳輸狀態是否達到預設網絡標準;
S5:若達到預設網絡標準則將存儲器中存儲的多段會議語音通過網絡傳輸至轉寫服務器,轉寫服務器按照錄音時間的順序生成對應文字文本;
S6:重復步驟S2-S5,直至會議結束,根據文字文本整理生成會議文本;
S7:將講話者的名稱替換麥克風編號生成最終會議文本。
基于第一方面,在本發明的一些實施例中,基于第一方面,在本發明的一些實施例中,步驟S3中所述將開始至停止的這段時間的錄音打包生成語音包并離線存儲至存儲器中包括:
對講話者輸出的語音進行斷句,上述斷句的方法包括:
講話者輸出語音時的中止時間超過預設時間,則進行斷句。
基于第一方面,在本發明的一些實施例中,步驟S5還包括:
將文字文本發送給對應的講話者進行審核。
基于第一方面,在本發明的一些實施例中,上述審核的方法包括:
判斷轉寫服務器轉寫的文字是否準確,講話者對轉寫不準確的文字進行手動編輯替換。
基于第一方面,在本發明的一些實施例中,步驟S2中對當前會議語音進行錄音的步驟包括:
錄音時檢測講話者輸出的語音音量大小,若音量小于第一預設值則自動放大語音音量。
基于第一方面,在本發明的一些實施例中,步驟S3離線存儲的方法包括:
將錄音存儲至錄音設備搭載的本地存儲器中。
第二方面,本發明實施例提供一種視頻會議語音識別系統,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京鼎天宏盛科技有限公司,未經北京鼎天宏盛科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111058454.0/2.html,轉載請聲明來源鉆瓜專利網。





