[發(fā)明專利]一種基于哈希學習的問答系統(tǒng)構(gòu)建方法有效
申請?zhí)枺?/td> | 201910361175.8 | 申請日: | 2019-04-30 |
公開(公告)號: | CN110110063B | 公開(公告)日: | 2023-07-18 |
發(fā)明(設計)人: | 李武軍;徐棟 | 申請(專利權(quán))人: | 南京大學 |
主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F16/35 |
代理公司: | 南京樂羽知行專利代理事務所(普通合伙) 32326 | 代理人: | 李玉平 |
地址: | 210023 江蘇*** | 國省代碼: | 江蘇;32 |
權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關(guān)鍵詞: | 一種 基于 學習 問答 系統(tǒng) 構(gòu)建 方法 | ||
本發(fā)明公開了一種基于哈希學習的問答系統(tǒng)構(gòu)建方法,可以達到在線問答場景下模型精度高、內(nèi)存開銷低且響應時間短的效果。該方法首先根據(jù)問答系統(tǒng)的應用場景收集問答訓練集,再結(jié)合深度學習技術(shù)構(gòu)造端到端的問答系統(tǒng)網(wǎng)絡模型,在訓練集上通過機器學習優(yōu)化算法訓練模型。在系統(tǒng)部署前,通過答案收集算法收集答案知識庫,使用訓練好的問答系統(tǒng)網(wǎng)絡模型計算答案知識庫中答案的二值矩陣表示。在線部署時,對于收到的問題,首先使用問答系統(tǒng)網(wǎng)絡模型進行問題編碼,然后問答系統(tǒng)網(wǎng)絡模型根據(jù)問題的編碼和答案的二值矩陣表示計算問題和答案的匹配程度。最后根據(jù)答案知識庫中的答案與問題的匹配程度對答案進行排序,將排在前面的答案作為響應返回給用戶。
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于哈希學習的問答系統(tǒng)構(gòu)建方法,涉及到文本數(shù)據(jù)處理技術(shù),用于實現(xiàn)在線問答場景下保持高精度的同時,利用低內(nèi)存開銷實現(xiàn)高效問答。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,人們獲取知識的途徑也變得多樣化。其中問答是一種友好且便捷的方式,可以免除人們閱讀文檔的過程,直接將用戶所需要的內(nèi)容返回給用戶。問答是科學領(lǐng)域中具有挑戰(zhàn)性的研究方向,是自然語言處理領(lǐng)域長期以來重點關(guān)注的任務,其具體內(nèi)容是根據(jù)給定的問題返回回答問題的答案。同時問答也是工程領(lǐng)域中的重要應用技術(shù),在現(xiàn)實中有很多具體的應用,包括語音助手、智能音箱、在線智能客服等。這些應用給人們的生活帶來了很大的便利。
大多數(shù)的問答研究工作主要關(guān)注于增強問題和答案之間的交互,提高模型的效果,卻很少考慮模型的時空效率。實際上,現(xiàn)有的這些具有問題答案交互機制的模型在在線預測場景下基本都存在內(nèi)存開銷問題或時間開銷問題。而不采用問題答案交互機制的模型雖然不存在內(nèi)存開銷問題或時間開銷問題,但是模型的效果會明顯下降。因此設計一個預測準確率高且可以降低內(nèi)存開銷、時間開銷的問答系統(tǒng)至關(guān)重要。
發(fā)明內(nèi)容
發(fā)明目的:為了解決現(xiàn)有技術(shù)中存在的問題與不足,本發(fā)明利用哈希學習技術(shù)對答案的實值矩陣表示,即答案全連接層的輸出,進行壓縮。在提高問答系統(tǒng)在線預測效率、保證模型精度的同時,又降低了內(nèi)存的開銷。
技術(shù)方案:一種基于哈希學習的問答系統(tǒng)構(gòu)建方法,具體包括以下步驟:
1)當有和問答系統(tǒng)應用場景相關(guān)的公開問答數(shù)據(jù)集或自己標注的問答數(shù)據(jù)集時,直接使用該數(shù)據(jù)集訓練模型,當缺少訓練數(shù)據(jù)時,從互聯(lián)網(wǎng)數(shù)據(jù)中構(gòu)造問答訓練集;
2)根據(jù)問答訓練集,構(gòu)建并訓練問答系統(tǒng)網(wǎng)絡模型;
3)通過答案收集算法收集答案并構(gòu)建答案知識庫;
4)使用問答系統(tǒng)網(wǎng)絡模型計算答案知識庫中答案的二值矩陣表示,建立答案二值矩陣表示數(shù)據(jù)庫;
5)對于問答系統(tǒng)接收到的問題,使用問答系統(tǒng)網(wǎng)絡模型計算問題編碼,然后問答系統(tǒng)網(wǎng)絡模型根據(jù)問題編碼和答案二值矩陣表示計算問題和答案的匹配程度,再基于匹配程度對答案進行排序;
6)當答案知識庫中沒有合適的答案時,答案收集算法根據(jù)問題重新收集答案,然后使用問答系統(tǒng)網(wǎng)絡模型計算其二值矩陣表示,更新到答案知識庫和答案二值矩陣表示數(shù)據(jù)庫中;
7)根據(jù)答案排序的結(jié)果和系統(tǒng)要求做出響應。
上述步驟1)的過程為:如果存在和問答系統(tǒng)應用場景相關(guān)的公開問答數(shù)據(jù)集或自己標注的問答數(shù)據(jù)集時,直接使用該數(shù)據(jù)集訓練模型;當不存在標注問答訓練集時,首先收集互聯(lián)網(wǎng)上相關(guān)領(lǐng)域的問題集,通過文本分類技術(shù)對問題集進行篩選,然后使用閱讀理解技術(shù)生成問題的答案,經(jīng)過后處理生成問答訓練集。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京大學,未經(jīng)南京大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910361175.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。