[發明專利]基于深度神經網絡與條件隨機場的對話行為識別方法有效
| 申請號: | 201410455219.0 | 申請日: | 2014-09-09 |
| 公開(公告)號: | CN104217226B | 公開(公告)日: | 2017-07-11 |
| 發明(設計)人: | 胡清華;周玉燦 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06K9/66 | 分類號: | G06K9/66;G10L15/16 |
| 代理公司: | 天津市北洋有限責任專利代理事務所12201 | 代理人: | 李麗萍 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 神經網絡 條件 隨機 對話 行為 識別 方法 | ||
1.一種基于深度神經網絡與條件隨機場的對話行為識別方法,其特征在于,包括以下步驟:
步驟一、設數據集中包括漢語口語語料,該數據集其中M表示數據集中完整對話的數目,Nm表示M對話數目的第m段對話中包含的語句數目,表示第m段對話的第n句語句的第j個模態的特征,表示第m段對話的第n句語句的對話行為標簽,L表示從每個語句提取的多模態特征的模態總數,L=10;
其中,從每個語句中提取多模態特征所涉及到的因素包括:語句的基頻和能量;該語句句末語調的基頻和能量;該語句中重音的基頻、能量和時長及該重音在該語句中的位置;該語句的時長、該語句在對話中的位置、說話人的性別、該語句中所用到的語氣詞;最終得出10種,共計116維的多模態特征,具體內容如下:
模態1:語句在對話中的相對位置、語句占對話的相對時長、說話人的性別、說話人是否發生變化、語氣詞;
模態2:語句重音的相對位置,時長,基頻的最大值和最小值、均值、最大值和最小值的差值,能量的最大值和最小值、均值、最大值和最小值的差值;
模態3:語句基頻的均值、方差、最大值、最小值、均值與最大值的差值、均值與最小值的差值、四分位差、峰度、偏度;
模態4:語句基頻采樣值平均分成10份,每份取均值進行重新采樣;
模態5:語句能量的均值、方差、最大值、最小值、均值與最大值的差值、均值與最小值的差值、四分位差、峰度、偏度;
模態6:語句能量采樣值平均分成20份,每份取均值進行重新采樣;
模態7:句末語調對應的基頻的均值、方差、最大值、最小值、均值與最大值的差值、均值與最小值的差值、四分位差、峰度、偏度;
模態8:句末語調對應的基頻采樣值平均分成5份,每份取均值進行重新采樣;
模態9:句末語調對應的能量的均值、方差、最大值、最小值、均值與最大值的差值、均值與最小值的差值、四分位差、峰度、偏度;
模態10:句末語調對應的能量采樣值平均分成20份,每份取均值進行重新采樣;
步驟二、構造條件隨機場模型:
其中,
在公式(1)和公式(2)中,Z(X(m))是歸一化因子,表示轉移特征函數,表示狀態特征函數;λ和μ分別是特征函數的權重,即條件隨機場中的參數,λ和μ從訓練集中通過學習算法得到;轉移狀態函數定義為:
公式(3)中,y’和y分別表示某個對話行為標簽,和分別表示第m段對話的第u句和第v句語句的對話行為標簽;
步驟三、基于多模態深度神經網絡構造條件隨機場模型的狀態特征函數:
3-1.構建多模態深度神經網絡:包括多模態特征學習模塊和多模態特征融合模塊,其中,所述多模態特征學習模塊包含L個深度神經網絡,用于對每一種原始的多模態特征進行復雜的非線性變換;所述多模態特征融合模塊是含有一個隱層的神經網絡,用于對上述變換后得到的多模態特征進行融合;
3-2.對原始的多模態特征數據經過上述多模態深度神經網絡的處理后,得到每個語句對于每個對話行為的隸屬度d=(d1,d2,…,dp),p表示對話行為的種數;
3-3.利用上述得到的對話行為的隸屬度,定義條件隨機場模型的狀態特征函數為:
步驟四、最大化對數似然函數,求解條件隨機場模型參數:
步驟五、對話行為類別的推斷:
通過求解整段對話的對話行為序列Y*,得到該段對話中對應的每個語句的對話行為。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410455219.0/1.html,轉載請聲明來源鉆瓜專利網。





