[發明專利]用于生成信息的方法和裝置有效

申請號：	201810366503.9	申請日：	2018-04-23
公開（公告）號：	CN108538303B	公開（公告）日：	2019-10-22
發明（設計）人：	孫建偉;李超;李鑫;朱唯鑫;文銘	申請（專利權）人：	百度在線網絡技術（北京）有限公司
主分類號：	G10L21/007	分類號：	G10L21/007
代理公司：	北京英賽嘉華知識產權代理有限責任公司 11204	代理人：	王達佐;馬曉亞
地址：	100085 北京市***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語音數據分布信息映射矩陣信噪比遠場方法和裝置仿真語音生成信息向量集合矩陣高有效性生成步驟真實場景近場采集申請
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請實施例公開了用于生成信息的方法和裝置。該方法的一具體實施方式包括：獲取信噪比映射矩陣，其中，信噪比映射矩陣是基于加噪語音數據集合中的至少一條加噪語音數據的幅值分布信息和在真實場景下采集到的至少一條遠場語音數據的幅值分布信息生成的矩陣，加噪語音數據是通過對近場語音數據進行加噪處理得到的；將加噪語音數據集合中的加噪語音數據作為待處理語音數據，執行以下生成步驟：確定與待處理語音數據對應的、用于表征待處理語音數據的幅值分布信息的第一向量；確定信噪比映射矩陣與第一向量的乘積，基于乘積生成遠場仿真語音數據。該實施方式實現了具有較高有效性的遠場仿真語音數據的生成。

技術領域

本申請實施例涉及計算機技術領域，具體涉及用于生成信息的方法和裝置。

背景技術

遠場聲學模型一般是基于遠場語音訓練數據對初始的聲學模型進行訓練得到的。

目前，可用的真實遠場語音數據較少，在模型訓練過程中使用的大多數遠場語音訓練數據通常是通過在近場語音數據中疊加噪聲數據而生成的遠場仿真語音數據。但采用現有的方法生成的遠場仿真語音數據的幅值分布往往不能與真實遠場語音數據的幅值分布相統一，因而現有的遠場仿真語音數據的有效性一般比較低。

發明內容

本申請實施例提出了用于生成信息的方法和裝置。

第一方面，本申請實施例提供了一種用于生成信息的方法，該方法包括：獲取信噪比映射矩陣，其中，上述信噪比映射矩陣是基于加噪語音數據集合中的至少一條加噪語音數據的幅值分布信息和在真實場景下采集到的至少一條遠場語音數據的幅值分布信息生成的矩陣，加噪語音數據是通過對近場語音數據進行加噪處理得到的；將上述加噪語音數據集合中的加噪語音數據作為待處理語音數據，執行以下生成步驟：確定與上述待處理語音數據對應的、用于表征上述待處理語音數據的幅值分布信息的第一向量；確定上述信噪比映射矩陣與上述第一向量的乘積，基于上述乘積生成遠場仿真語音數據。

在一些實施例中，上述獲取信噪比映射矩陣，包括：對上述至少一條遠場語音數據進行幅值分布統計，生成用于表征上述至少一條遠場語音數據的幅值分布信息的遠場幅值分布向量；從上述加噪語音數據集合中提取出至少一條加噪語音數據；對提取出的至少一條加噪語音數據進行幅值分布統計，生成用于表征提取出的至少一條加噪語音數據的幅值分布信息的近場幅值分布向量；對上述遠場幅值分布向量和上述近場幅值分布向量分別進行積分，確定積分后所得的值之間的差值，將上述差值確定為上述信噪比映射矩陣。

在一些實施例中，上述對上述至少一條遠場語音數據進行幅值分布統計，生成用于表征上述至少一條遠場語音數據的幅值分布信息的遠場幅值分布向量，包括：對于上述至少一條遠場語音數據中的遠場語音數據，對該遠場語音數據進行幅值分布統計，生成與該遠場語音數據對應的、用于表征該遠場語音數據的幅值分布信息的第二向量；確定與上述至少一條遠場語音數據分別對應的第二向量的總和，將上述總和作為上述遠場幅值分布向量。

在一些實施例中，上述對提取出的至少一條加噪語音數據進行幅值分布統計，生成用于表征提取出的至少一條加噪語音數據的幅值分布信息的近場幅值分布向量，包括：對于提取出的至少一條加噪語音數據中的加噪語音數據，對該加噪語音數據進行幅值分布統計，生成與該加噪語音數據對應的、用于表征該加噪語音數據的幅值分布信息的第一向量；確定與提取出的至少一條加噪語音數據分別對應的第一向量的總和，將該總和作為上述近場幅值分布向量。

在一些實施例中，上述對于上述至少一條遠場語音數據中的遠場語音數據，對該遠場語音數據進行幅值分布統計，生成與該遠場語音數據對應的、用于表征該遠場語音數據的幅值分布信息的第二向量，包括：對于上述至少一條遠場語音數據中的遠場語音數據，將該遠場語音數據的幅值映射為預設的整數區間中的數值，確定該遠場語音數據的經映射后的幅值中的不同的幅值出現的次數，基于所確定的次數生成與該遠場語音數據對應的第二向量。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術（北京）有限公司，未經百度在線網絡技術（北京）有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810366503.9/2.html，轉載請聲明來源鉆瓜專利網。

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L21-00 為了改變語音信號的質量或其可識度而處理語音信號，以產生另一種可聽的或非可聽的信號，例如視覺信號或觸覺信號
G10L21-02 .語音增強，例如降低噪聲或消除回聲
G10L21-04 .時間壓縮或擴展
G10L21-06 .將語音轉換成非可聽表達形式，例如語音可視化、觸覺輔助的語音處理

免登錄下載普通用戶下載升級VIP會員，免費下載

[發明專利]用于生成信息的方法和裝置有效

專利文獻下載