[發明專利]基于視頻的語音識別系統及方法有效

申請號：	201210320742.3	申請日：	2012-08-31
公開（公告）號：	CN103680497B	公開（公告）日：	2017-03-15
發明（設計）人：	王玲瓏;曹晨曦	申請（專利權）人：	百度在線網絡技術（北京）有限公司
主分類號：	G10L15/30	分類號：	G10L15/30;G10L17/06;H04L29/08;H04L12/58
代理公司：	北京清亦華知識產權代理事務所(普通合伙)11201	代理人：	宋合成
地址：	100085 北京市***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于視頻語音識別系統方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及語音識別技術領域，特別是涉及一種基于視頻的語音識別系統及方法。

背景技術

語音識別技術已經廣泛應用于人們日常生活之中，隨之帶來了很多問題。例如，在賬號體系或SNS相關產品里如何應用語音識別技術，從而高效、準確的發送或分享視頻等信息給對方。在當下賬號體系及SNS相關產品中需要人腦記憶多個聯系人好友，經過實踐的累積，很容易忘記曾經見過面但不十分熟識的朋友，且當用戶想分享信息給視頻中的好友們時，發現想不起來好友的信息身份，比較尷尬。目前解決這些問題只能通過用戶自身的記憶和手動分析來實現，效率低，準確度低。

發明內容

本發明旨在至少解決上述技術問題之一。

為此，本發明的一個目的在于提出一種基于視頻的語音識別系統，該系統可以通過語音識別，方便且準確的通過語音識別視頻中的用戶的身份。本發明的另一個目的在于提出一種終端設備的控制裝置。

為了實現上述目的，本發明第一方面的實施例提供一種移動終端控制系統，包括以下步驟：終端設備，用于錄制或接收視頻，并采集所述視頻中的語音信號；云服務器，用于接收來自所述終端設備的所述語音信號，提取所述語音信號中的聲紋信息，以及將所述聲紋信息與預存的聲紋庫中的多個用戶的聲紋信息進行匹配以獲取所述語音信號的發出者的身份信息，其中，所述聲紋庫存儲有多個用戶的身份信息及聲紋信息，其中所述聲紋信息與所述身份信息一一對應；以及社交服務器，用于接收所述視頻和所述發出者的身份信息，根據所述發出者的身份信息查找所述發出者在所述社交服務器上登記的身份識別號，并根據所述身份識別號向對應的所述語音信號的發出者發送所述視頻。

根據本發明實施例的終端設備控制系統，將用戶發送的語音與聲紋庫中的預存的語音進行匹配，并在匹配成功后，用戶進行確認選擇和控制，將視頻等信息分享給對方，從而不需要其他外部設備即可實現對終端設備的選擇控制，過程準確易實現，具有較高的準確性、易用性和適用性。

在本發明的一個實施例中，所述聲紋信息包括多個聲紋特征，其中，所述聲紋特征包括聲學特征、詞法特征、韻律特征、語言特征和通道特征。

在本發明的又一個實施例中，所述語言特征包括語種特征、方言特征和口音特征中的一種或多種。

由此，云服務器可以通過聲紋特征對來自終端設備的語音進行匹配，形式多樣性，從而考慮到盡可能多的語言特征，更利于對語音的發出者的身份進行識別。

在本發明的在一個實施例中，所述終端設備還用于對采集到的所述語音信號進行降噪處理，并將降噪處理后的語音信號發送至所述云服務器。

由此，使得獲得的語音信號更加清晰，更方便對用戶的語音信息進行確認及控制。

在發明的又一個實施例中，所述發出者在所述社交服務器上登記的身份識別號為電子郵箱或即時聊天ID。

由此，通過注冊所用的電子郵箱或及時聊天ID，便可以輕松獲得有關發出者更多的身份信息，從而將視頻發送給發出者，并且便于保障系統的準確性與安全性。

本發明第二方面的實施例提出一種基于視頻的語音識別方法，包括如下步驟：終端設備錄制或接收視頻，并采集所述視頻中的語音信號，以及將所述語音信號發送至云服務器；

所述云服務器接收所述語音信號，并提取所述語音信號中的聲紋信息，以及將所述聲紋信息與預存的聲紋庫中的多個用戶的聲紋信息進行匹配，獲取所述語音信號的發出者的身份信息，其中，所述聲紋庫存儲有多個用戶的身份信息及聲紋信息，其中所述聲紋信息與所述身份信息一一對應；以及

社交服務器接收所述視頻和所述語音信號的發出者的身份信息，并根據所述發出者的身份信息查找所述發出者在所述社交服務器上登記的身份識別號，以及根據所述身份識別號向對應的所述語音信號的發出者發送所述視頻。

根據本發明實施例的基于視頻的語音識別方法，將用戶發送的語音與聲紋庫中的預存的語音進行匹配，并在匹配成功后，用戶進行確認選擇和控制，將視頻等信息分享給對方，從而不需要其他外部設備即可實現對終端設備的選擇控制，過程準確易實現，具有較高的準確性、易用性和適用性。