[發明專利]一種視頻會議語音識別方法及系統在審
| 申請號: | 202111058454.0 | 申請日: | 2021-09-09 |
| 公開(公告)號: | CN113542661A | 公開(公告)日: | 2021-10-22 |
| 發明(設計)人: | 李鵬 | 申請(專利權)人: | 北京鼎天宏盛科技有限公司 |
| 主分類號: | H04N7/15 | 分類號: | H04N7/15;G10L15/26 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100020 北京市朝陽區工人體*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 視頻會議 語音 識別 方法 系統 | ||
1.一種視頻會議語音識別方法,其特征在于,包括:
S1:對參會的麥克風進行編號,每個麥克風編號唯一;
S2:參會的麥克風中的任一麥克風若接收到開始記錄會議指令,則開始對當前會議語音進行錄音;
S3:若接收到停止記錄會議指令,則停止錄音,將開始至停止的這段時間的錄音打包生成語音包并離線存儲至存儲器中;
S4:重復S2-S3,當存儲器存儲的多個語音包的占用容量累加達到第一預設容量時,檢測網絡傳輸狀態是否達到預設網絡標準;
S5:若達到預設網絡標準則將存儲器中存儲的多段會議語音通過網絡傳輸至轉寫服務器,轉寫服務器按照錄音時間的順序生成對應文字文本;
S6:重復步驟S2-S5,直至會議結束,根據文字文本整理生成會議文本;
S7:將講話者的名稱替換麥克風編號生成最終會議文本。
2.根據權利要求1所述的一種視頻會議語音識別方法,其特征在于,步驟S3中所述將開始至停止的這段時間的錄音打包生成語音包并離線存儲至存儲器中包括:
對講話者輸出的語音進行斷句,所述斷句的方法包括:
講話者輸出語音時的中止時間超過預設時間,則進行斷句。
3.根據權利要求1所述的一種視頻會議語音識別方法,其特征在于,步驟S5還包括:
將文字文本發送給對應的講話者進行審核。
4.根據權利要求3所述的一種視頻會議語音識別方法,其特征在于,所述審核的方法包括:
判斷轉寫服務器轉寫的文字是否準確,講話者對轉寫不準確的文字進行手動編輯替換。
5.根據權利要求1所述的一種視頻會議語音識別方法,其特征在于,步驟S2中對當前會議語音進行錄音的步驟包括:
錄音時檢測講話者輸出的語音音量大小,若音量小于第一預設值則自動放大語音音量。
6.根據權利要求1所述的一種視頻會議語音識別方法,其特征在于,步驟S3離線存儲的方法包括:
將錄音存儲至錄音設備搭載的本地存儲器中。
7.一種視頻會議語音識別系統,其特征在于,包括:
編號模塊,對參會的麥克風進行編號,每個麥克風編號唯一;
開始錄音模塊,參會的麥克風中的任一麥克風若接收到開始記錄會議指令,則開始對當前會議語音進行錄音;
離線存儲模塊,若接收到停止記錄會議指令,則停止錄音,將開始至停止的這段時間的錄音打包生成語音包并離線存儲至存儲器中;
檢測網絡模塊,當存儲器存儲的多個語音包的占用容量累加達到第一預設容量時,檢測網絡傳輸狀態是否達到預設網絡標準;
轉寫模塊,若達到預設網絡標準則將存儲器中存儲的多段會議語音通過網絡傳輸至轉寫服務器,轉寫服務器按照錄音時間的順序生成對應文字文本;
生成會議文模塊,根據文字文本整理生成會議文本;
替換模塊,將講話者的名稱替換麥克風編號生成最終會議文本。
8.根據權利要求7所述的一種視頻會議語音識別系統,其特征在于,還包括:
斷句模塊,講話者輸出語音時的中止時間超過預設時間,則進行斷句。
9.一種電子設備,其特征在于,包括:
至少一個處理器、至少一個存儲器和數據總線;其中:
所述處理器與所述存儲器通過所述數據總線完成相互間的通信;所述存儲器存儲有可被所述處理器執行的程序指令,所述處理器調用所述程序指令以執行如權利要求1至6任一所述的方法。
10.一種非暫態計算機可讀存儲介質,其特征在于,所述非暫態計算機可讀存儲介質存儲計算機程序,所述計算機程序使計算機執行如權利要求1至6任一所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京鼎天宏盛科技有限公司,未經北京鼎天宏盛科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111058454.0/1.html,轉載請聲明來源鉆瓜專利網。





