[發(fā)明專利]一種基于遷移學習的問答匹配方法有效
| 申請?zhí)枺?/td> | 202010159530.6 | 申請日: | 2020-03-09 |
| 公開(公告)號: | CN111368058B | 公開(公告)日: | 2023-05-02 |
| 發(fā)明(設(shè)計)人: | 蘇磊;張順 | 申請(專利權(quán))人: | 昆明理工大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06N3/0442;G06N3/048;G06N3/096 |
| 代理公司: | 昆明人從眾知識產(chǎn)權(quán)代理有限公司 53204 | 代理人: | 沈艷尼 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 遷移 學習 問答 匹配 方法 | ||
本發(fā)明涉及一種基于遷移學習的問答匹配方法,屬于信息檢索技術(shù)領(lǐng)域。本發(fā)明首先將不同領(lǐng)域的問答數(shù)據(jù)集進行預處理、采用word2vec模型訓練多領(lǐng)域共通常用的問答對的詞向量,其次選擇深度學習模型雙向長短期記憶網(wǎng)絡(luò)模型作為基礎(chǔ)的神經(jīng)網(wǎng)絡(luò),隨機初始化BiLSTM模型的參數(shù),利用Word2vec初始化該模型的embedding層的參數(shù),在源域數(shù)據(jù)集上預訓練該答案選擇模型,保存該模型的參數(shù),其次選定初始化目標域的數(shù)據(jù)集,在目標域上模型中,將源域的模型中的參數(shù)遷移到目標域模型中,用該數(shù)據(jù)集訓練和微調(diào)該模型。BiLSTM模型計算問題和候選答案的向量表示,最后采用余弦相似度計算問題與候選答案的相似度,選出該問題的最佳答案。
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于遷移學習的問答匹配方法,屬于信息檢索技術(shù)領(lǐng)域。
背景技術(shù)
隨著互聯(lián)網(wǎng)的普及,互聯(lián)網(wǎng)信息的不斷增長,網(wǎng)絡(luò)上充斥著越來越多的冗余信息,因此用戶在互聯(lián)網(wǎng)上搜索所需的信息無疑是在“大海撈針”,近年來隨著搜索引擎的版本更新,在很大程度上降低了用戶查找信息的難度,但這類搜索引擎依舊存在一定的缺陷與不足。這類的搜索引擎返回用戶查詢的結(jié)果太多,難以快速定位到所需信息;其搜索模式都是基于關(guān)鍵詞精準匹配來查找相關(guān)信息的方式,難以用少量關(guān)鍵詞準確表達用戶的查詢意圖;缺乏對搜索用戶查詢語句的理解,其按相關(guān)度返回網(wǎng)頁,檢索到的答案仍需要用戶的手動篩選,用戶如果要得到自己真正所需要的信息,還需要再進一步手工去點擊鏈接,重新定位。
智能問答系統(tǒng)改變傳統(tǒng)搜索引擎返回超鏈接的方式,直接理解用戶的自然語言問題和意圖,快速、準確地直接給予文本答案,提高了用戶查找效率,改善了信息檢索的用戶體驗。但在特定領(lǐng)域的問答匹配任務(wù)中,由于數(shù)據(jù)來源有限、人工標注樣本的成本和難度過高,只能獲取到少量的標注數(shù)據(jù)樣本,使得在標注數(shù)據(jù)樣本少量的情況下難以獲得較高的問答匹配準確率,因此利用遷移學習方法來提高問答匹配準確率具有重要意義。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提供一種基于遷移學習的問答匹配方法,主要解決在特定領(lǐng)域的問答匹配任務(wù)中,由于數(shù)據(jù)來源有限、人工標注樣本的成本和難度過高,只能獲取到少量的標注數(shù)據(jù)樣本,使得在標注數(shù)據(jù)樣本少量的情況下難以獲得較高的問答匹配準確率的缺陷,充分利用遷移學習和深度學習相結(jié)合,更快、更好地為用戶提供更合理、準確的文本答案。
本發(fā)明的技術(shù)方案是:一種基于遷移學習的問答匹配方法,具體步驟為:
Step1:將源領(lǐng)域數(shù)據(jù)集中的問題及候選答案集進行預處理,預處理包括但不限于分詞和詞向量訓練,得到問題及候選答案的詞向量;
Step2:將Step1中的問題和候選答案的詞向量作為輸入送入深度學習模型中,在深度學習模型中使用BiLSTM對其進行編碼,生成問題特征向量和候選答案特征向量以及保存訓練參數(shù);
Step3:將目標域數(shù)據(jù)集中的問題以及候選答案集進行與Step1相同的預處理操作,得到詞向量;然后將目標域數(shù)據(jù)集詞向量作為輸入送入深度學習模型中,在目標域采用與Step2相同的模型進行編碼,之后將Step2中保存的源域模型參數(shù)遷移到目標域的訓練模型當中,作為目標域訓練模型的初始化參數(shù)進行目標域數(shù)據(jù)集訓練;
Step4:生成目標域中問題與候選答案的特征向量,通過余弦相似度計算問題與候選答案的相似度,相似度分數(shù)最高的,則作為該問題的最佳答案反饋給用戶。
進一步地,將所述Step1和所述Step3中得到的問題及候選答案的詞向量分別組成問答對,再將問答對進行分詞,去除停用詞操作,最后使用表示學習方法對其進行向量化表示。這里主要通過加載word2vec詞向量進行訓練從而得到問答對的詞向量表示。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于昆明理工大學,未經(jīng)昆明理工大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010159530.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





