[發明專利]用于答案選擇系統的數據處理方法及應用有效
| 申請號: | 201810371451.4 | 申請日: | 2018-04-24 |
| 公開(公告)號: | CN108595629B | 公開(公告)日: | 2021-08-06 |
| 發明(設計)人: | 楊鵬 | 申請(專利權)人: | 北京慧聞科技發展有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/953;G06F16/9532;G06F16/332;G06K9/62 |
| 代理公司: | 北京睿邦知識產權代理事務所(普通合伙) 11481 | 代理人: | 徐丁峰 |
| 地址: | 100000 北京市西城區西*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 答案 選擇 系統 數據處理 方法 應用 | ||
1.一種用于答案選擇系統的數據處理方法,包括:
獲取對抗樣本數據和正常樣本數據,所述對抗樣本數據包括至少一條問題數據和相對應的至少一條答案數據,且所述至少一條答案數據是相對于所述問題的錯誤答案;
通過詞嵌入層生成所述對抗樣本數據和所述正常樣本數據的詞向量表示;
通過雙向長短期記憶層處理所述對抗樣本數據和所述正常樣本數據中的問題句子和答案句子以獲得問題句子和答案句子的字符向量表示;
結合所述字符向量表示和所述詞向量表示作為所述對抗樣本數據和所述正常樣本數據的最終詞向量表示;
通過雙向長短期記憶層處理所述最終詞向量表示以獲得所述問題數據和所述答案數據對應的隱狀態序列;
基于所述問題數據對應的隱狀態序列,通過池化層計算出所述問題數據的第一問題表示;
通過注意力機制層根據所述第一問題表示計算出所述答案數據的第一答案表示;
基于所述答案數據對應的隱狀態序列,通過池化層計算出所述答案數據的第二答案表示;
通過注意力機制層根據所述第二答案表示計算出所述問題數據的第二問題表示;
結合所述第一問題表示和所述第二問題表示作為最終問題表示;
結合所述第一答案表示和所述第二答案表示作為最終答案表示;
計算所述最終問題表示和所述最終答案表示之間的相似度;以及
計算相應的損失函數以通過反向傳播調整所述答案選擇系統的網絡參數。
2.如權利要求1所述的用于答案選擇系統的數據處理方法,其中,獲取所述對抗樣本數據包括:
選擇與至少一條問題數據對應的至少一條正確答案數據;以及
隨機替換所述正確答案數據中的詞語以生成所述對抗樣本數據。
3.如權利要求1所述的用于答案選擇系統的數據處理方法,其中,獲取所述對抗樣本數據包括:
從正確答案中選擇至少2個連續的詞語;
選擇一條錯誤答案數據;以及
將所述至少2個連續的詞語結合于所述錯誤答案數據之后,以生成所述對抗樣本數據。
4.如權利要求1所述的用于答案選擇系統的數據處理方法,其中,獲取所述對抗樣本數據包括:
隨機采樣至少一序列詞語;
選擇一條正確答案數據;以及
將所述至少一序列詞語結合于所述正確答案數據之后,以生成所述對抗樣本數據。
5.如權利要求1所述的用于答案選擇系統的數據處理方法,其中,計算所述最終問題表示和所述最終答案表示之間的相似度包括:
利用余弦函數計算所述最終問題表示和所述最終答案表示之間的相似度。
6.如權利要求1到5中任意一項所述的用于答案選擇系統的數據處理方法,進一步包括:
獲取待檢索問題;和
基于所述答案選擇系統獲得與所述待檢索問題相匹配的答案。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京慧聞科技發展有限公司,未經北京慧聞科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810371451.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于推送信息的方法和裝置
- 下一篇:一種用戶行為數據分析模型及其構建方法





