[發明專利]一種新聞播報輔助用語音模型識別裝置及其控制方法有效
| 申請號: | 202210601789.0 | 申請日: | 2022-05-30 |
| 公開(公告)號: | CN115083428B | 公開(公告)日: | 2023-05-30 |
| 發明(設計)人: | 周杰君;舒展;陳龍 | 申請(專利權)人: | 湖南中周至尚信息技術有限公司 |
| 主分類號: | G10L21/0208 | 分類號: | G10L21/0208;G10L21/028;G10L15/26;G06V40/16 |
| 代理公司: | 廈門原創專利事務所(普通合伙) 35101 | 代理人: | 黃巧香 |
| 地址: | 410000 湖南省長沙*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 新聞 播報 輔助 用語 模型 識別 裝置 及其 控制 方法 | ||
1.一種新聞播報輔助用語音模型識別裝置,包括領夾式無線語音識別器(1),所述領夾式無線語音識別器(1)的上端設置有人臉識別相機(2),所述領夾式無線語音識別器(1)的前端設置有雙麥克風(3),所述領夾式無線語音識別器(1)的上端設置有開關按鈕(5);
其特征在于:還包括:
LED環燈識別糾錯標記反饋模塊(6),其設置在所述領夾式無線語音識別器(1)的上端,且人臉識別相機(2)的外側一周均設置有LED環燈識別糾錯標記反饋模塊(6);
后臺服務器信息存儲處理程序(11),且后臺服務器信息存儲處理程序(11)與領夾式無線語音識別器(1)無線雙向信息互通連接;
所述后臺服務器信息存儲處理程序(11)的內部設置有語音特征拆分模塊(12)與圖像識別模塊(16),且語音特征拆分模塊(12)、圖像識別模塊(16)與領夾式無線語音識別器(1)信息傳輸連接;
所述語音特征拆分模塊(12)的一側設置有文本數據庫(13),所述文本數據庫(13)的一側設置有語音轉文本模塊(14),所述語音轉文本模塊(14)的一側設置有第一比對模塊(15),且數據流沿語音特征拆分模塊(12)、文本數據庫(13)、語音轉文本模塊(14)、第一比對模塊(15)傳輸設置,所述第一比對模塊(15)的一側設置有語音、視頻、文本、時間軸對軸模塊(20),且第一比對模塊(15)、第二比對模塊(18)均與語音、視頻、文本、時間軸對軸模塊(20)信息傳輸連接設置,所述語音、視頻、文本、時間軸對軸模塊(20)的一側設置有語音轉文本輸出模塊(21),且LED環燈識別糾錯標記反饋模塊(6)與語音、視頻、文本、時間軸對軸模塊(20)信息傳輸連接設置,并且語音轉文本輸出模塊(21)與語音、視頻、文本、時間軸對軸模塊(20)信息傳輸連接設置;
所述圖像識別模塊(16)的一側設置有人物口型識別模塊(17),所述人物口型識別模塊(17)的一側設置有第二比對模塊(18),且數據流沿圖像識別模塊(16)、人物口型識別模塊(17)、第二比對模塊(18)
所述語音特征拆分模塊(12)與圖像識別模塊(16)之間設置有處理模塊(19),且處理模塊(19)分別與語音特征拆分模塊(12)、文本數據庫(13)、語音轉文本模塊(14)、第一比對模塊(15)、圖像識別模塊(16)、人物口型識別模塊(17)、第二比對模塊(18)數據互通連接設置;
圖像識別模塊(16)進一步用于對主持人在播報過程中人臉的表情進行識別,所述人臉的表情進行識別通過后臺服務器信息存儲處理程序(11)將上述處理后的數據與雙麥克風(3)錄制時的時間軸進行匹配,使得人臉的表情、語音識別的文字能夠與錄制時間軌進行對應;
所述第二比對模塊(18)還進一步用于將圖像識別后的數據與新聞稿內容進行文本內容對比后,發現錯誤的時間點的前、后表情變化。
2.根據權利要求1所述的一種新聞播報輔助用語音模型識別裝置,其特征在于:所述領夾式無線語音識別器(1)的功能包括人聲與背景噪音拆分模塊(8),且人聲與背景噪音拆分模塊(8)與領夾式無線語音識別器(1)信息輸入連接,所述人臉識別相機(2)的一側設置有信息加密壓縮打包傳輸模塊(10),所述人聲與背景噪音拆分模塊(8)的一側設置有人聲降噪模塊(9),且人聲降噪模塊(9)與人聲與背景噪音拆分模塊(8)信息輸入連接,并且信息加密壓縮打包傳輸模塊(10)與人臉識別相機(2)信息輸入連接。
3.一種新聞播報輔助用語音模型識別裝置的控制方法,基于權利要求1-2任意一項用于一種新聞播報輔助用語音模型識別裝置實現,其特征在于,包括以下步驟:
通過領夾式無線語音識別器(1)、人臉識別相機(2)、雙麥克風(3)、人聲與背景噪音拆分模塊(8)、人聲降噪模塊(9)、信息加密壓縮打包傳輸模塊(10)、后臺服務器信息存儲處理程序(11)、語音特征拆分模塊(12)、文本數據庫(13)、語音轉文本模塊(14)、第一比對模塊(15)、圖像識別模塊(16)、人物口型識別模塊(17)、第二比對模塊(18)、處理模塊(19)、語音、視頻、文本、時間軸對軸模塊(20)、語音轉文本輸出模塊(21)的設置,將領夾式無線語音識別器(1)佩戴在胸前衣領上,按下開關按鈕(5),之后雙麥克風(3)開始錄音,與此同時人臉識別相機(2)對其上方的使用者面部進行錄像,之后領夾式無線語音識別器(1)內部的處理器將錄制輸入的語音傳輸給人聲與背景噪音拆分模塊(8),人聲與背景噪音拆分模塊(8)將錄制的人聲與背景音分離,之后數據傳輸給人聲降噪模塊(9)進行進一步降噪處理,提高辨析度,之后人臉識別相機(2)錄制的圖像與人聲數據被信息加密壓縮打包傳輸模塊(10)進行加密壓縮打包處理,之后領夾式無線語音識別器(1)將加密壓縮打包的數據無線上傳至后臺服務器信息存儲處理程序(11),數據包進入后臺服務器信息存儲處理程序(11)后被數據解壓拆分,分為音頻數據和圖像數據,分別輸入至語音特征拆分模塊(12)與圖像識別模塊(16)進行單獨處理,語音特征拆分模塊(12)對語音數據的特征進行識別與拆分,之后后臺服務器信息存儲處理程序(11)從文本數據庫(13)的內部檢索并比對新聞稿的文字內容,語音轉文本模塊(14)將語音特征拆分模塊(12)、文本數據庫(13)對比分析后的語音數據進行語音文字轉換,之后輸入給第一比對模塊(15)將數據進行對比校驗提高語音識別的正確度,與此同時圖像數據被圖像識別模塊(16)識別,由人物口型識別模塊(17)對圖像數據進行嘴型行為識別,第二比對模塊(18)將圖像識別后的數據與新聞稿內容進行文本內容對比,從而提高了人物嘴型與播報的內容的匹配程度,極大提高了語音轉文字的準確性,而處理模塊(19)為上述模塊提供機器學習支持和數據的支持,極大提高了系統對語音轉文字的學習和轉化準確率、效率,之后將轉化后的文字、語音、視頻嘴型輸入給語音、視頻、文本、時間軸對軸模塊(20)進行內容對比檢測,極大提高了語音文字轉化的識別精度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南中周至尚信息技術有限公司,未經湖南中周至尚信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210601789.0/1.html,轉載請聲明來源鉆瓜專利網。





