[發明專利]一種基于遷移學習的問答匹配方法有效
| 申請號: | 202010159530.6 | 申請日: | 2020-03-09 |
| 公開(公告)號: | CN111368058B | 公開(公告)日: | 2023-05-02 |
| 發明(設計)人: | 蘇磊;張順 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06N3/0442;G06N3/048;G06N3/096 |
| 代理公司: | 昆明人從眾知識產權代理有限公司 53204 | 代理人: | 沈艷尼 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 遷移 學習 問答 匹配 方法 | ||
1.一種基于遷移學習的問答匹配方法,其特征在于:
Step1:將源領域數據集中的問題及候選答案集進行預處理,預處理包括但不限于分詞和詞向量訓練,得到問題及候選答案的詞向量;
Step2:將Stepl中的問題和候選答案的詞向量作為輸入送入深度學習模型中,在深度學習模型中使用BiLSTM對其進行編碼,生成問題特征向量和候選答案特征向量以及保存訓練參數;
Step3:將目標域數據集中的問題以及候選答案集進行與Stepl相同的預處理操作,得到詞向量;然后將目標域數據集詞向量作為輸入送入深度學習模型中,在目標域采用與Step2相同的模型進行編碼,之后將Step2中保存的源域模型參數遷移到目標域的訓練模型當中,作為目標域訓練模型的初始化參數進行目標域數據集訓練;
Step4:生成目標域中問題與候選答案的特征向量,通過余弦相似度計算問題與候選答案的相似度,相似度分數最高的,則作為該問題的最佳答案反饋給用戶;
所述Step3的具體步驟為:
Step3.1:將Step2得到的源領域數據集的問答對向量表示作為InputModole的輸入,使用BiLSTM讀入問答對向量,得到隱藏狀態為:
ht=BiLSTM(xt,ht-1)??????(1)
其中,xt=L[wt],L是embedding?matrix,wt是問答序列時刻t的詞語,ht是t時刻的隱藏狀態,ht=LSTM(xt,ht-1)表示當前的隱藏狀態由前一個隱藏狀態和當前的輸入xt計算得到,xt表示輸入的問答對的向量表示,其中LSTM的定義為:
zt=σ(W(z)xt+U(z)ht-1+b(z))???????(2)
rt=σ(W(r)xt+U(r)ht-1+b(r))???????(3)
其中,o是點積,即兩個向量元素對應相乘,σ表示sigmoid函數,值域為0~1,W(z),W(r),U(z),U(r),n均為超參數,zt為LSTM的遺忘門,rt是重置門,若rt近似為0,則上一個隱含狀態將被丟棄,rt提供了丟棄與未來無關的過去隱含狀態的機制,也就是說,rt決定了過去有多少信息被遺忘,為候選隱含狀態,其使用rt來控制包含過去時刻信息的上一個隱含狀態的流入,ht是隱含狀態,利用zt來對上一個隱含狀態ht-1和候選隱含狀態進行更新,zt可以控制過去的隱含狀態在當前時刻的重要性,若zt一直近似1,則過去的隱含狀態將一直通過時間保存并傳遞至當前時刻,能更好地捕捉時序數據中間隔較大的依賴關系,式(1)是式(2)-(5)的縮寫;
使用LSTM讀入問題和候選答案,得到最后一個隱藏狀態為:
Step3.2:基于遷移學習的問答匹配方法,將需要遷移的源域知識編碼為BiLSTM模型中的參數,K0為源域和目標域的共同參數,Ks和KT為源域和目標域的特有參數,則源域和目標域的參數可用下列公式表示:
Ks=K0+KsKT=K0+KT?????(8)
Step3.3:結合Dropout的雙向LSTM模型作為基本模型,對于源域中的數據樣本的輸入序列Ts,模型在源域上的任務可表示為:
y=BiLSTM(Ks*Ts)????????(9)
對于目標中數據樣本的輸入序列Tt,模型在目標域上的任務可表示為:
y=BiLSTM(KT*Tt)???????(10)
設FTL(x)為遷移學習的方法,根據(9)和(10),源域和目標域之間的知識遷移公式可表示為:
結合公式(8),公式(11)可轉換為:
假設不考慮已知條件TS和TT,設BiLSTM(K0)=μ,對于公式(12)進行簡化,最終得到的遷移學習方法可表示為:
遷移學習的方法的最終目的在于將源域模型上訓練的參數Ks在目標域上轉化為KT,能夠更好的適應目標域上的數據及任務;
Step3.4:采用余弦相似度計算出目標域上問題和候選答案的匹配相似度得分,模型的目標函數定義為:
其中為目標域數據中的正確答案,為隨機選取的負向答案,m是優化目標函數所設的參數,目標函數是讓和qT之間的cosine值大于和qT之間的cosine值,從而選擇出問題的最佳答案。
2.根據權利要求1所述的基于遷移學習的問答匹配方法,其特征在于:將所述Stepl和所述Step3中得到的問題及候選答案的詞向量分別組成問答對,再將問答對進行分詞,去除停用詞操作,最后使用表示學習方法對其進行向量化表示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010159530.6/1.html,轉載請聲明來源鉆瓜專利網。





