[發明專利]一種基于語音識別及轉寫技術的實時字幕上屏直播系統在審
| 申請號: | 202110297837.7 | 申請日: | 2021-03-19 |
| 公開(公告)號: | CN113068058A | 公開(公告)日: | 2021-07-02 |
| 發明(設計)人: | 李廣壘;陳祖濤 | 申請(專利權)人: | 安徽寶信信息科技有限公司 |
| 主分類號: | H04N21/2187 | 分類號: | H04N21/2187;G10L15/26;G10L21/0208;H04N21/4402;H04N21/439;H04N21/43;H04N21/488 |
| 代理公司: | 合肥律眾知識產權代理有限公司 34147 | 代理人: | 趙娟 |
| 地址: | 230088 安徽省合肥市高新區習友路33*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語音 識別 轉寫 技術 實時 字幕 直播 系統 | ||
1.一種基于語音識別及轉寫技術的實時字幕上屏直播系統,其特征在于,包括語音采集模塊、語音消噪模塊、文字轉化模塊、文字語音庫、文字驗證模塊、數據接收模塊、數據處理模塊、總控模塊與字幕播放模塊;
所述語音采集模塊包括兩個語音采集終端,所述語音采集終端用于采集直播時的實時語音信息;
所述實時語音信息被發到語音消噪模塊,所述語音消噪模塊對接收到的述實時語音信息進行消噪處理,消噪處理后獲取到經過消噪的語音信息;
所述經過消噪的語音信息被發送到文字轉化模塊,所述文字轉化模塊將獲取到的消噪的語音信息發送到文字語音庫中進行語音轉文字處理,獲取到轉化后的文字信息;
所述文字信息被發送到文字驗證模塊,所述文字驗證模塊用于對轉化后的文字信息進行文字驗證處理獲取標準文字信息;
所述標準文字信息被發送到數據接收模塊,所述數據接收模塊將標準文字信息進行轉化,將其處理播放文字內容;
所述總控模塊控制字幕播放模塊同步播放文字內容。
2.根據權利要求1所述的一種基于語音識別及轉寫技術的實時字幕上屏直播系統,其特征在于:所述語音采集模塊進行語音采集模塊的具體處理過程如下:
步驟一:兩個語音采集終端同步采集語音信息,將其分別標記為M1和M2;
步驟二:將語音信息M1和語音信息M2同步加速播放,將語音信息M1和語音信息M2中聲音小于預設值的提取出,將其標記為Ki,i=1……n;
步驟三:將所有的Ki進行合并處理,之后將語音信息M1和語音信息M2中的剩余部分進行合并處理,得到合并后的語音信息M和,語音信息M和即為需要進行消噪的語音信息。
3.根據權利要求1所述的一種基于語音識別及轉寫技術的實時字幕上屏直播系統,其特征在于:所述語音消噪模塊進行消噪處理的具體過程如下:將需要進行語音消噪的語音信息導入到語音消噪模塊,語音消噪模塊中的深度殘差收縮網絡通過自適應閾值的軟閾值化層,自動消除與當前任務無關的信息,進行強噪數據的準確識別,并消除掉強噪音,強噪音被消除后即得到被消除噪音的語音信息。
4.根據權利要求1所述的一種基于語音識別及轉寫技術的實時字幕上屏直播系統,其特征在于:所述文字轉化模塊進行文字轉化的具體過程如下:
步驟一:導入經過降噪處理的語音信息,將其標記為P,將語音信息P導入到文字語音庫中;
步驟二:語音信息P導入到文字語音庫中進行匹配處理;
步驟三:當語音信息P的語音信息與到文字語音庫中預存的語音文字相似度超過預設值,即表示該文字匹配成功,即將其提取出標記為識別文字;
步驟四:將所有的識別文字按照識別時間進行排列組合得到轉化后的文字信息。
5.根據權利要求1所述的一種基于語音識別及轉寫技術的實時字幕上屏直播系統,其特征在于:所述文字驗證模塊的具體處理過程如下:提取出轉化后的文字信息將其回傳到文字語音庫,進行文字轉語音流程,當文字轉語音流程轉化出的語音信息與原輸入語音的相似度超過預設值時,即驗證文字通過,將被驗證的文字標記為標準文字信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽寶信信息科技有限公司,未經安徽寶信信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110297837.7/1.html,轉載請聲明來源鉆瓜專利網。





