[發明專利]一種基于深度神經網絡的語音環境氣氛識別方法在審
| 申請號: | 202111070401.0 | 申請日: | 2021-09-13 |
| 公開(公告)號: | CN113903327A | 公開(公告)日: | 2022-01-07 |
| 發明(設計)人: | 謝景帆 | 申請(專利權)人: | 北京卷心菜科技有限公司 |
| 主分類號: | G10L15/00 | 分類號: | G10L15/00;G10L15/02;G10L15/16;G10L15/26;G10L25/30;G10L25/63 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 劉萍 |
| 地址: | 100015 北京市朝陽區酒*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 神經網絡 語音 環境 氣氛 識別 方法 | ||
一種基于深度神經網絡的語音環境氣氛識別方法屬于語音識別領域。無論是采用神經網絡方法還是隱馬爾可夫模型,一般是針對單方甚至僅僅是單個語句進行情緒判斷。而個人及單個語句的情緒不能表征整體對話氣氛。另外在多人同時說話時,常常出現混淆、誤檢測。本發明包括5個模塊,在提取語義情感特征的過程中使用文本情感語料庫,聯合語言特征和語義特征進行氣氛識別,包含了多個神經網絡,可以識別不同說話人,感知語義情緒,設計了一種回歸方法對整體對話氣氛進行判斷。
技術領域
本發明屬于語言和語音識別領域。
背景技術
語言和語音識別在各個領域已經被越來越廣泛地被應用。
所謂氣氛,是指在對話過程中,雙方或多方共同感知的情感和心理特征。例如緊張、輕松、熱情、冷漠。
在交流過程中,識別出對話過程中的整體氣氛有助于提高服務質量。例如在多人語音會議中,當氣氛緊張時,可以通過系統界面和背景音的調整來緩和氣氛;在視頻教學過程中,氣氛過于輕松時,可以對老師進行提醒。
現有技術方案一般通過隱馬爾可夫模型或神經網絡方法對音頻進行檢測,發現一些特殊的語音符號,例如哭泣、大笑?;蜃R別出發音者的情緒。
無論是采用神經網絡方法還是隱馬爾可夫模型,一般是針對單方甚至僅僅是單個語句進行情緒判斷。而個人及單個語句的情緒不能表征整體對話氣氛。
另外在多人同時說話時,常常出現混淆、誤檢測。
發明內容
本發明基于語音識別和自然語言處理技術,識別不同說話人,感知語義情緒,設計了一種回歸方法對整體對話氣氛進行判斷。
1.一種基于深度神經網絡的語音環境氣氛識別方法,其特征在于包括以下模塊:
模塊1:獲取音頻信號并進行預處理;
將音頻信號進行預處理得到聲音數據;包括預加重、分幀、短時傅里葉變換;
模塊2:將模塊1輸出的聲音數據進行切分,得到各語段所屬說話人ID、語音段的起始時間和結束時間、文本內容;
模塊2的主體為一種深度神經網絡,該深度神經網絡具體參數通過訓練獲得;
訓練過程為:
2.1 獲取訓練數據集,
2.2 對訓練數據中,說話人、文本內容進行分段標注;標注內容為每一段的開始時間、結束時間、說話人、說話內容的文本;
2.3 采用梯度下降方式進行擬合
使用過程中,將聲音數據輸入給訓練好的深度神經網絡模型,該模型給出對每個時間步的概率預測結果,即每個時間步所屬說話人的概率分布、說話內容的概率分布;
將聲音數據的全部時間步輸出綜合起來,按照說話人的連續說話進行切分,生成各段起始截止時間,各段的說話人、各段的文本內容;
模塊3:將模塊2輸出的語音段進行語音特征提??;
依據語音段的切分時間,對原始音頻信號進行重采樣;并給予重采樣的結果進行語音特征抽??;
模塊4:依據文本情感語料庫,將模塊2輸出的各個說話人的文本內容編碼為語義情感特征;
模塊4為具有記憶功能的時序神經網絡,記憶有一定時序限度內的情感特征;對于每一個說話人進行單獨運算;對最新文本內容進行分詞,去停用詞,依據文本情感語料庫將詞語轉換為情感特征;將情感特征輸入時序神經網絡,并獲取到最新的情感特征結果;
模塊5:依據模塊3和模塊4輸出的語音特征和情感特征,進行氣氛判斷;
氣氛使用一個實數值來進行度量;實數取值范圍為[0,1],0表示非常輕松,1表示非常緊張;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京卷心菜科技有限公司,未經北京卷心菜科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111070401.0/2.html,轉載請聲明來源鉆瓜專利網。





