[發明專利]信息處理方法、裝置、系統、電子設備及存儲介質在審
| 申請號: | 202011140819.X | 申請日: | 2020-10-22 |
| 公開(公告)號: | CN112270918A | 公開(公告)日: | 2021-01-26 |
| 發明(設計)人: | 李興彪;謝寒梅;范慧敏;趙慧斌;丁美元;胡麗娜 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L13/08;H04L12/18;G06F40/149 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信息處理 方法 裝置 系統 電子設備 存儲 介質 | ||
本申請公開了信息處理方法、裝置、系統、電子設備及存儲介質,涉及語音識別、語音合成和自然語言處理等人工智能技術領域,具體實現方案為:接收各個客戶端發送的對應角色的音頻數據流,并確定各個音頻數據的角色標識和各個音頻數據的起始時刻;將接收到的各個音頻數據進行轉換,生成各個文本信息;響應于接收到合并操作指令且不滿足合并停止條件,將所有文本信息進行合并操作,生成各個第一文本;響應于滿足合并停止條件,將各個第一文本進行整合操作,生成與各個第一文本相對應的第二文本。該方案實現了一種針對多個客戶端中各個角色的音頻數據進行接收和轉換,再經過文本整合確定發送信息的方法。
技術領域
本申請的實施例涉及人工智能技術領域,具體涉及語音識別、語音合成和自然語言處理技術領域,尤其涉及信息處理方法和裝置。
背景技術
人工智能是研究使計算機來模擬人的某些思維過程和智能行為(如學習、推理、思考、規劃等)的學科,既有硬件層而的技術也有軟件層而的技術。人工智能硬件技術一般包括如傳感器、專用人工智能芯片、云計算、分布式存儲、大數據處理等技術;人工智能軟件技術主要包括計算機視覺技術、語音識別技術、自然語言處理技術以及機器學習/深度學習、大數據處理技術、知識圖譜技術等幾大方向。
隨著人工智能的發展,利用線上音視頻會議服務成為企業中日常會議的主流。在實際場景中,用戶若遺漏了一場會議期望后續可以查看會議內容或者一場重要會議參與人需要回顧會議關鍵信息等,使得會議記錄功能成為音視頻會議軟件的重要能力。
現階段音視頻會議的錄制場景中,錄制軟件采用僅錄制語音保存音頻或者將語音轉換成整段文字的形式,如果同一時間,有多人在說話,錄音效果就會比較差,并且語音轉換成的文字也會很亂。因此需要一種能夠向用戶提供更符合會議場景,方便用戶快速回顧會議信息、識別會議角色的會議記錄方式。
發明內容
本申請提供了一種信息處理方法、裝置、系統、設備以及存儲介質,涉及人工智能技術領域,具體涉及語音識別、語音合成和自然語言處理技術領域。
根據本申請的第一方面,提供了一種信息處理方法,該方法包括:接收各個客戶端發送的對應角色的音頻數據流,并根據各個音頻數據,確定各個音頻數據的角色標識和與角色標識相對應的各個音頻數據的起始時刻;將接收到的各個音頻數據進行轉換,生成與音頻數據的角色標識和音頻數據的起始時刻相對應的各個文本信息;響應于接收到合并操作指令且不滿足合并停止條件,將所有文本信息進行合并操作,生成與角色標識和起始時刻相對應的各個第一文本,其中,合并操作用于表征將相同角色標識的文本信息進行合并;響應于滿足合并停止條件,將各個第一文本進行整合操作,生成與各個第一文本相對應的第二文本,其中,整合操作用于表征按照角色標識和起始時刻將各個第一文本進行排列組合。
根據本申請的第二方面,提供了一種信息處理系統,系統包括:客戶端和服務器端,其中,客戶端,用于響應于接收到信息處理請求,采集各個角色不同時刻的音頻數據;將音頻數據發送至服務器端;響應于接收到服務器端發送的第二文本,基于各個角色標識和相應的各個起始時刻,展示第二文本;服務器端用于執行上述任意一項的信息處理方法。
根據本申請的第三方面,提供了一種信息處理裝置,裝置包括:接收單元,被配置成接收各個客戶端發送的對應角色的音頻數據流,并根據各個音頻數據,確定各個音頻數據的角色標識和與角色標識相對應的各個音頻數據的起始時刻;轉換單元,被配置成將接收到的各個音頻數據進行轉換,生成與音頻數據的角色標識和音頻數據的起始時刻相對應的各個文本信息;合并單元,被配置成響應于接收到合并操作指令且不滿足合并停止條件,將所有文本信息進行合并操作,生成與角色標識和起始時刻相對應的各個第一文本,其中,合并操作用于表征將相同角色標識的文本信息進行合并;信息處理單元,被配置成響應于滿足合并停止條件,將各個第一文本進行整合操作,生成與各個第一文本相對應的第二文本,其中,整合操作用于表征按照角色標識和起始時刻將各個第一文本進行排列組合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011140819.X/2.html,轉載請聲明來源鉆瓜專利網。





