[發明專利]一種放開域問答系統有效
| 申請號: | 201911040515.3 | 申請日: | 2019-10-29 |
| 公開(公告)號: | CN110879838B | 公開(公告)日: | 2023-07-14 |
| 發明(設計)人: | 莫迪 | 申請(專利權)人: | 中科能效(北京)科技有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F40/284;G06N3/044;G06N3/045;G06N3/048;G06N3/082;G06N3/047 |
| 代理公司: | 北京鼎云升知識產權代理事務所(普通合伙) 11495 | 代理人: | 呂玉健 |
| 地址: | 100085 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 放開 問答 系統 | ||
1.一種放開域問答系統,問答系統技術理論方法為流水線方法,在流水線QA系統,需要選擇一個段落并將其傳遞給段落級問答模型,其特征在于:其核心部分為
A.Embedding:使用預訓練的詞向量嵌入單詞,并通過使用學習的嵌入矩陣嵌入字符,然后應用卷積神經網絡和最大池化,將這些與字符派生的詞嵌入相結合;
B.Pre-Process:這里使用了共享的雙向GRU(Bi-GRU)來處理問題與文章的嵌入;C.Attention:通過使用雙向注意流(Bi-DirectionalAttentionFlow,BiDAF)的Attention機制來構建語言的上下文表示;
aij=w1·hi+w2·qj+w3(hi⊙qj)
i,j:答案范圍內的單詞i和問題里的單詞j;
hi,qj:段落單詞的詞向量和問題單詞的詞向量;
nc:答案范圍的上下文長度;
w1、w2和w3:學習向量,⊙是元素乘法;
qc:上下文查詢向量;
每個標簽的最終向量是通過連接得到的,并通過一個帶有ReLU激活的線性層傳遞結果;
D.Self-Attention:輸入通過另一個雙向GRU(Bi-GRU),應用相同的Attention機制,不過這里沒有qc了,而是設置aij=inf?if?i=j;
E.Prediction:在模型的最后一層,應用了雙向GRU,然后通過線性層計算出每個開始標記的答案分數,將隱藏狀態與輸入相結合,再通過另一個雙向GRU和線性層計算出每個結束標記的答案分數,這里應用到了softmax函數,來計算開始或結束的概率;
還包含置信度模型,置信度模型的基準度量是每個可能的答案區間的非標準化分數和未被指數化分數,這里使用的是基于邊界的模型,具有開始標簽和結束標簽,每個答案區間的分數是開始分數和結束分數之和;
為避免模型在啟發式模式下產生的過度自信,這里嘗試了4種模型訓練方法,并都會將不包含答案的段落作為額外的訓練點進行抽樣;
(1)Shared-Normalization
使用了一個修改的目標函數,其中從相同上下文中采樣的所有段落的起始和結束分數都被標準化,目的是迫使模型產生段落之間具有可比性的分數;
(2)合并
在訓練期間將從同一上下文中采樣的所有段落連接在一起,并在每個段落之前添加具有學習嵌入的段落分隔符標記;
(3)No-Answer選項
允許模型為每個段落選擇一個特殊的無應答選項;
這里重新改寫了目標函數,
si,gj:模型為標記i,j生成的起始和結束邊界的分數
a,b:正確的開始和結束標記
最后通過在模型末尾添加一個額外的層來計算另一個得分z,首先通過獲取用于預測由開始或結束概率加權的開始或結束標記分數的RNN的總和隱藏狀態,并在自我關注層的輸出上使用學習的關注向量來構建輸入向量,最后將這些矢量送到具有80維隱藏層的兩層網絡和ReLU激活,結果z就是其唯一輸出;
(4)Sigmoid
考慮具有S形損失目標函數的訓練模型,通過將sigmoid函數應用于每個標記的開始或結束分數來計算每個標記的開始或結束概率,交叉熵損失用于每個單獨的概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中科能效(北京)科技有限公司,未經中科能效(北京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911040515.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種卷積神經網絡目標分類方法
- 下一篇:顯示裝置





