[發明專利]用于生成信息的方法和裝置有效
申請號: | 201810366503.9 | 申請日: | 2018-04-23 |
公開(公告)號: | CN108538303B | 公開(公告)日: | 2019-10-22 |
發明(設計)人: | 孫建偉;李超;李鑫;朱唯鑫;文銘 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
主分類號: | G10L21/007 | 分類號: | G10L21/007 |
代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 語音數據 分布信息 映射矩陣 信噪比 遠場 方法和裝置 仿真語音 生成信息 向量 集合 矩陣 高有效性 生成步驟 真實場景 近場 采集 申請 | ||
本申請實施例公開了用于生成信息的方法和裝置。該方法的一具體實施方式包括:獲取信噪比映射矩陣,其中,信噪比映射矩陣是基于加噪語音數據集合中的至少一條加噪語音數據的幅值分布信息和在真實場景下采集到的至少一條遠場語音數據的幅值分布信息生成的矩陣,加噪語音數據是通過對近場語音數據進行加噪處理得到的;將加噪語音數據集合中的加噪語音數據作為待處理語音數據,執行以下生成步驟:確定與待處理語音數據對應的、用于表征待處理語音數據的幅值分布信息的第一向量;確定信噪比映射矩陣與第一向量的乘積,基于乘積生成遠場仿真語音數據。該實施方式實現了具有較高有效性的遠場仿真語音數據的生成。
技術領域
本申請實施例涉及計算機技術領域,具體涉及用于生成信息的方法和裝置。
背景技術
遠場聲學模型一般是基于遠場語音訓練數據對初始的聲學模型進行訓練得到的。
目前,可用的真實遠場語音數據較少,在模型訓練過程中使用的大多數遠場語音訓練數據通常是通過在近場語音數據中疊加噪聲數據而生成的遠場仿真語音數據。但采用現有的方法生成的遠場仿真語音數據的幅值分布往往不能與真實遠場語音數據的幅值分布相統一,因而現有的遠場仿真語音數據的有效性一般比較低。
發明內容
本申請實施例提出了用于生成信息的方法和裝置。
第一方面,本申請實施例提供了一種用于生成信息的方法,該方法包括:獲取信噪比映射矩陣,其中,上述信噪比映射矩陣是基于加噪語音數據集合中的至少一條加噪語音數據的幅值分布信息和在真實場景下采集到的至少一條遠場語音數據的幅值分布信息生成的矩陣,加噪語音數據是通過對近場語音數據進行加噪處理得到的;將上述加噪語音數據集合中的加噪語音數據作為待處理語音數據,執行以下生成步驟:確定與上述待處理語音數據對應的、用于表征上述待處理語音數據的幅值分布信息的第一向量;確定上述信噪比映射矩陣與上述第一向量的乘積,基于上述乘積生成遠場仿真語音數據。
在一些實施例中,上述獲取信噪比映射矩陣,包括:對上述至少一條遠場語音數據進行幅值分布統計,生成用于表征上述至少一條遠場語音數據的幅值分布信息的遠場幅值分布向量;從上述加噪語音數據集合中提取出至少一條加噪語音數據;對提取出的至少一條加噪語音數據進行幅值分布統計,生成用于表征提取出的至少一條加噪語音數據的幅值分布信息的近場幅值分布向量;對上述遠場幅值分布向量和上述近場幅值分布向量分別進行積分,確定積分后所得的值之間的差值,將上述差值確定為上述信噪比映射矩陣。
在一些實施例中,上述對上述至少一條遠場語音數據進行幅值分布統計,生成用于表征上述至少一條遠場語音數據的幅值分布信息的遠場幅值分布向量,包括:對于上述至少一條遠場語音數據中的遠場語音數據,對該遠場語音數據進行幅值分布統計,生成與該遠場語音數據對應的、用于表征該遠場語音數據的幅值分布信息的第二向量;確定與上述至少一條遠場語音數據分別對應的第二向量的總和,將上述總和作為上述遠場幅值分布向量。
在一些實施例中,上述對提取出的至少一條加噪語音數據進行幅值分布統計,生成用于表征提取出的至少一條加噪語音數據的幅值分布信息的近場幅值分布向量,包括:對于提取出的至少一條加噪語音數據中的加噪語音數據,對該加噪語音數據進行幅值分布統計,生成與該加噪語音數據對應的、用于表征該加噪語音數據的幅值分布信息的第一向量;確定與提取出的至少一條加噪語音數據分別對應的第一向量的總和,將該總和作為上述近場幅值分布向量。
在一些實施例中,上述對于上述至少一條遠場語音數據中的遠場語音數據,對該遠場語音數據進行幅值分布統計,生成與該遠場語音數據對應的、用于表征該遠場語音數據的幅值分布信息的第二向量,包括:對于上述至少一條遠場語音數據中的遠場語音數據,將該遠場語音數據的幅值映射為預設的整數區間中的數值,確定該遠場語音數據的經映射后的幅值中的不同的幅值出現的次數,基于所確定的次數生成與該遠場語音數據對應的第二向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810366503.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:合成音頻的方法和裝置
- 下一篇:車內噪聲主動控制系統