[發(fā)明專利]基于聯合訓練方式的多文檔多答案機器閱讀理解系統(tǒng)有效
| 申請?zhí)枺?/td> | 202010640437.7 | 申請日: | 2020-07-06 |
| 公開(公告)號: | CN111930887B | 公開(公告)日: | 2023-07-21 |
| 發(fā)明(設計)人: | 孫寧;王彬;韓光潔 | 申請(專利權)人: | 河海大學常州校區(qū) |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/332;G06F40/211;G06F40/284;G06N3/0442;G06N3/049;G06N3/08 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 丁濤 |
| 地址: | 213022 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 聯合 訓練 方式 文檔 答案 機器 閱讀 理解 系統(tǒng) | ||
1.一種基于聯合訓練方式的多文檔多答案機器閱讀理解系統(tǒng),其特征在于,所述系統(tǒng)包括多文檔排序選擇模塊、機器閱讀理解模型、答案驗證模塊、機器閱讀理解模型和答案驗證模塊的聯合訓練模塊;
所述多文檔排序選擇模塊提供了一種多文檔的篩選方案,剔除無關的文章段落,選取與問題相關的段落內容作為機器閱讀理解模型的輸入;
所述機器閱讀理解模型能夠從段落內容中尋找問題的答案,該答案并不一定是單一的,而可能是具有多個的;
所述答案驗證模塊將機器閱讀理解模型輸出的多答案進行驗證,將驗證正確的答案進行輸出;
所述機器閱讀理解模型和答案驗證模塊的聯合訓練模塊使用聯合訓練的方式,最優(yōu)化聯合損失函數,得出兩個模型的最優(yōu)化參數;
所述多文檔排序選擇模塊能夠從大量的文檔中選擇出與問題相關的文章,并從文章中選取與問題相關的段落,將這些段落內容作為后續(xù)機器閱讀理解模型的輸入;所述多文檔排序選擇模塊系統(tǒng)分為文檔選擇子模塊與段落選擇子模塊;多文檔排序選擇模塊的計算步驟如下:
(2-1)將文章輸入進文檔選擇子模塊,該模塊使用BM25算法與TF-IDF算法計算出問題與文檔的相關性,剔除無關的文檔,選擇相關性最高的前k1篇文檔輸入段落選擇子模塊;
(2-2)段落選擇子模塊將輸入的文檔的拆分為段落;
(2-3)對這些段落分別使用基于強度排序與基于匹配度排序的方案進行打分,最終根據基于強度排序的打分score1和基于匹配度排序的打分score2,進行加權求和,具體公式為:
scoresum=λ1*score1+λ2*score2??????(1)
其中λ1,λ2為自定義的超參數,λ1,λ2∈(0,1),且λ1+λ2=1,表示兩種打分方案所占的權重;
(2-4)最后,將這些加權求和的最終分數scoresum進行排序,最終選擇排名前k2個段落作為多文檔排序選擇模塊的輸出;
上述的k1,k2為自定義的超參數,用于控制選擇的文檔數和段落數。
2.根據權利要求1中所述的基于聯合訓練方式的多文檔多答案機器閱讀理解系統(tǒng),其特征在于:所述的基于強度排序的打分方案的具體內容為:使用BLEU-4分數計算問句與每個段落的分數,這個總分表示了問句中的關鍵詞在每個段落中出現的次數。
3.根據權利要求1中所述的基于聯合訓練方式的多文檔多答案機器閱讀理解系統(tǒng),其特征在于:所述的基于匹配度排序的打分方案的具體內容為:提供了數量為N的文檔,平均每個文檔有K個段落,所以設Pi為段落內容,其中i是段落標號,從1到N*K,設問題為Q;將文章與問題中分割好的詞語轉換為各自的單詞級詞向量和將問題與段落的詞向量輸入雙向LSTM網絡中進行編碼,得到新的編碼向量和uP表示文章內容,uQ表示問題,計算公式為:
然后計算每個段落中包含問題答案的概率p(Pi|Q),公式為:
其中sim(x,y)為相似性函數,用來衡量在段落內容Pi中包含問題Q的答案的概率,使用簡單的評分函數,為兩個向量的點積,具體公式為:
sim(x,y)=xT*y??????(5)
其中x,y為兩個向量,代表函數的形參;模型的損失函數具體公式為:
其中θ表示該模型可訓練參數,最終根據段落中包含問題的概率進行打分,輸出基于匹配度的打分分數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河海大學常州校區(qū),未經河海大學常州校區(qū)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010640437.7/1.html,轉載請聲明來源鉆瓜專利網。





