[發(fā)明專利]語音聊天協(xié)同處理方法及裝置在審

申請?zhí)枺?/td>	202010588474.8	申請日：	2020-06-24
公開（公告）號：	CN111754990A	公開（公告）日：	2020-10-09
發(fā)明（設計）人：	楊文龍	申請（專利權）人：	楊文龍
主分類號：	G10L15/18	分類號：	G10L15/18;G10L15/183;G10L15/22;G10L15/26;G10L21/0208;G10L21/0216;H04N7/15;G06F40/30;G06K9/00
代理公司：	北京酷愛智慧知識產(chǎn)權代理有限公司 11514	代理人：	向霞
地址：	201611 上海市松***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語音聊天協(xié)同處理方法裝置
鉆瓜網(wǎng) 技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明實施例公開了一種語音聊天協(xié)同處理方法及裝置。方法包括：在會議過程中，實時獲取外界語音及圖像數(shù)據(jù)；采用自然語言處理模型對所述外界語音數(shù)據(jù)進行處理，以獲取對話文本數(shù)據(jù)；將所述對話文本數(shù)據(jù)和語音轉文字的歷史對話文本數(shù)據(jù)進行相關性比較，以得到比較結果；根據(jù)所述比較結果對所述外界語音數(shù)據(jù)進行過濾處理或調低音量處理。本發(fā)明實施例，可以根據(jù)輸入聲音及圖像的語義信息進行判斷，如果是相關的信息則通過，不相關的信息就自動濾除，提高用戶體驗，相當于有一個智能的主持人，可以根據(jù)發(fā)言者發(fā)言是否相關而自動調大或者調小對應人員的音量，甚至靜音關掉不相關的發(fā)言。

技術領域

本發(fā)明涉及計算機軟件技術領域，具體涉及一種語音聊天協(xié)同處理方法及裝置。

背景技術

目前的多人語音聊天系統(tǒng)中，如果出現(xiàn)多人同時說話的場景，會導致一片嘈雜，什么都聽不清楚；可能的場景及現(xiàn)有方案舉例如下：

(1)在公司或者商務的遠程多人語音會議時，一般有自覺的參與者在不需要說話時會自己靜音，或者主持人在發(fā)言時會把其他人靜音；

缺點：這種解決方案需要參與者對電腦操作比較熟悉，適合商務人士及年輕人，不適合小孩子及老人；且針對環(huán)境中的雜音或者偶然的人員闖入等聲音無法濾除；

(2)在一些需要遠程教育的場合，比如幼兒園老師跟小孩子做網(wǎng)上的視頻交流時，由于小孩子發(fā)言比較不規(guī)范且不定時，很難要求他們自己靜音或者按時發(fā)言的操作，影響溝通的效率；

缺點：孩子時不時發(fā)言，聲音嘈雜，無法溝通，影響用戶體驗；

(3)公司會議室里面的視頻會議系統(tǒng)，攝像頭會探知聲音，然后改變朝向發(fā)出聲音的人或者位置：

缺點：針對環(huán)境中的雜音或者偶然的人員闖入等聲音無法濾除，容易產(chǎn)生誤判，進而導致攝像頭朝向雜音的產(chǎn)生地，影響用戶體驗。

發(fā)明內容

本發(fā)明實施例的目的在于提供一種語音聊天協(xié)同處理方法及裝置，主要解決現(xiàn)有的多人語音系統(tǒng)中，環(huán)境偶發(fā)(無意義的)噪音無法濾除、多人發(fā)言嘈雜無法自動過濾的問題。

為實現(xiàn)上述目的，第一方面，本發(fā)明實施例提供了一種語音聊天協(xié)同處理方法，包括：

在會議過程中，實時獲取外界語音數(shù)據(jù)；

采用對話系統(tǒng)模型對所述外界語音數(shù)據(jù)進行處理，以獲取對話文本數(shù)據(jù)；

將所述對話文本數(shù)據(jù)和語音轉文字的歷史對話文本數(shù)據(jù)進行相關性比較，以得到比較結果；

根據(jù)所述比較結果對所述外界語音數(shù)據(jù)進行過濾處理或調低音量處理，并將對所述外界語音數(shù)據(jù)過濾或調低音量的處理結果顯示于用戶界面。

作為本申請的一種具體實施方式，實時獲取外界語音數(shù)據(jù)之前，所述方法還包括：

獲取用戶語音輸入數(shù)據(jù)和用戶圖像數(shù)據(jù)；

將所述用戶語音輸入數(shù)據(jù)送入語音識別模塊進行識別；

根據(jù)所述用戶圖像數(shù)據(jù)判斷用戶當前是否為發(fā)言狀態(tài)；

若用戶當前不為發(fā)言狀態(tài)，則得出所述用戶語音輸入數(shù)據(jù)為背景雜音，采用自動降噪法自動過濾所述用戶語音數(shù)據(jù)；所述背景雜音包括咳嗽聲、貓狗叫聲和打噴嚏聲；

若用戶當前為發(fā)言狀態(tài)，且判斷所述用戶語音輸入數(shù)據(jù)是否為自然語言；

若為自然語音，則實時獲取外界語音數(shù)據(jù)；

若不為自然語言，但通過語義場景模塊檢測判斷出所述用戶語音輸入數(shù)據(jù)與當前對話有關聯(lián)(笑聲、歌聲等)，則實時獲取外界語音數(shù)據(jù)；

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于楊文龍，未經(jīng)楊文龍許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010588474.8/2.html，轉載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創(chuàng)建基準模板；訓練語音識別系統(tǒng)，例如對說話者聲音特征的適應
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】