[發明專利]問答對生成方法及裝置在審
| 申請號: | 202010740577.1 | 申請日: | 2020-07-28 |
| 公開(公告)號: | CN111897934A | 公開(公告)日: | 2020-11-06 |
| 發明(設計)人: | 周輝陽;閆昭 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/36;G06F40/279;G06F40/289;G06F40/126;G06K9/62;G06Q10/10 |
| 代理公司: | 深圳市隆天聯鼎知識產權代理有限公司 44232 | 代理人: | 葉虹 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 答對 生成 方法 裝置 | ||
1.一種問答對生成方法,其特征在于,所述方法包括:
識別待處理文本中包含的多個實體詞;
將各個實體詞分別作為答案,并與所述待處理文本輸入問題生成模型,得到所述問題生成模型輸出的所述各個實體詞對應的問題語句;
將各個問題語句分別與所述待處理文本輸入閱讀理解模型,得到所述閱讀理解模型輸出的所述各個問題語句對應的答案語句;
根據所述各個問題語句對應的答案語句以及所述各個問題語句對應的實體詞,生成問答對。
2.根據權利要求1所述的方法,其特征在于,根據所述各個問題語句對應的答案語句以及所述各個問題語句對應的實體詞,生成問答對,包括:
如果所述多個實體詞對應的問題語句中存在第一問題語句,所述第一問題語句對應的實體詞為所述第一問題語句對應的答案語句的子集,則根據所述第一問題語句和所述第一問題語句對應的答案語句,生成問答對;
如果所述多個實體詞對應的問題語句中存在第二問題語句,所述第二問題語句對應的答案語句為所述第二問題語句對應的實體詞的子集,則根據所述第二問題語句和所述第二問題語句對應的實體詞,生成問答對。
3.根據權利要求1所述的方法,其特征在于,將各個實體詞分別作為答案,并與所述待處理文本輸入問題生成模型,包括:
將所述各個實體詞作為答案,與所述待處理文本中包含所述各個實體詞的子文本輸入所述問題生成模型,所述子文本包含的字符長度不超過預設長度。
4.根據權利要求3所述的方法,其特征在于,所述方法還包括:
根據所述各個實體詞在所述待處理文本中的位置,將所述待處理文本分成包含所述各個實體詞的子文本。
5.根據權利要求1所述的方法,其特征在于,所述問題生成模型是通過如下方式訓練得到的:
獲取第一訓練樣本集,所述第一訓練樣本集中每個訓練樣本包括文本樣本和標注問題,所述文本樣本中包含答案樣本,所述標注問題為所述答案樣本對應的問題;
通過所述問題生成模型中的編碼器對所述答案樣本進行編碼,得到所述答案樣本的編碼表示,并通過所述問題生成模型中的解碼器對所述答案樣本的編碼表示進行解碼,得到所述答案樣本對應的預測問題;
確定所述預測問題和所述標注問題之間的損失,并根據所述損失對所述問題生成模型的參數進行調整。
6.根據權利要求1所述的方法,其特征在于,所述閱讀理解模型是通過如下方式訓練得到的:
獲取第二訓練樣本集,所述第二訓練樣本集中每個訓練樣本包括問題樣本、文本樣本和標注位置,所述文本樣本中包含所述問題樣本對應的答案樣本,所述標注位置為所述答案樣本在所述文本樣本中的位置;
通過所述閱讀理解模型對所述問題樣本與所述文本樣本進行編碼,得到樣本的向量序列,并預測所述答案樣本在所述樣本的向量序列中的位置,得到所述答案樣本的預測位置;
確定所述預測位置與所述標注位置之間的損失,根據所述損失對所述閱讀理解模型中的參數進行調整。
7.根據權利要求6所述的方法,其特征在于,通過所述閱讀理解模型對所述問題樣本與所述文本樣本進行編碼,得到樣本的向量序列,包括:
通過所述閱讀理解模型對所述問題樣本進行詞嵌入,得到所述問題樣本的詞向量序列;
通過所述閱讀理解模型對所述文本樣本進行詞嵌入,得到所述文本樣本的詞向量序列;
通過所述閱讀理解模型對所述問題樣本的詞向量序列和所述文本樣本的詞向量序列中的每一個詞向量進行交叉編碼,得到編碼后的所述樣本的向量序列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010740577.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種水環境治理用污泥濃縮裝置
- 下一篇:一種倉儲庫房管理系統





