[發明專利]針對用戶問題和知識庫返回答案的方法和裝置在審
| 申請號: | 202110779953.2 | 申請日: | 2021-07-09 |
| 公開(公告)號: | CN113435213A | 公開(公告)日: | 2021-09-24 |
| 發明(設計)人: | 韋峰;陳召群 | 申請(專利權)人: | 支付寶(杭州)信息技術有限公司 |
| 主分類號: | G06F40/35 | 分類號: | G06F40/35;G06F40/211;G06K9/62 |
| 代理公司: | 北京億騰知識產權代理事務所(普通合伙) 11309 | 代理人: | 陳霽;周良玉 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 針對 用戶 問題 知識庫 返回 答案 方法 裝置 | ||
1.一種針對用戶問題和知識庫返回答案的方法,所述知識庫包括多個文檔,所述方法包括:
獲取用戶問題;
確定與所述用戶問題相關聯的若干個段落,所述若干個段落來自于所述多個文檔;
將所述用戶問題和所述若干個段落中的任一個段落輸入機器閱讀理解模型,得到該段落中是否包含答案的標記,以及答案的起始位置和終止位置,以便返回多個答案,以及多個答案分別的起始位置和終止位置。
2.如權利要求1所述的方法,其中,所述獲取用戶問題,包括:
獲取用戶輸入的原始問句;
將所述原始問句輸入預先訓練的問題改寫模型,得到所述用戶問題。
3.如權利要求2所述的方法,其中,所述知識庫屬于目標領域;
所述問題改寫模型采用如下方式進行訓練:
基于通用的多個領域的第一訓練樣本對所述問題改寫模型進行訓練,得到初始訓練后的所述問題改寫模型;
基于所述目標領域的第二訓練樣本對初始訓練后的所述問題改寫模型進行微調,得到微調后的所述問題改寫模型。
4.如權利要求3所述的方法,其中,所述第一訓練樣本通過如下方式獲得:
獲取對應于同一問題的多個答案,所述多個答案包括第一答案和第二答案;
將所述第一答案作為樣本輸入,所述第二答案作為樣本標簽,得到所述第一訓練樣本。
5.如權利要求3所述的方法,其中,所述第二訓練樣本通過如下方式獲得:
獲取原始問題和改寫后的問題;
將所述原始問題作為樣本輸入,所述改寫后的問題作為樣本標簽,得到所述第二訓練樣本。
6.如權利要求1所述的方法,其中,所述確定與所述用戶問題相關聯的若干個段落,包括:
確定所述用戶問題分別與所述知識庫中的各文檔之間的匹配度,從所述知識庫中選擇出匹配度最高的預設數目個文檔;
將所述預設數目個文檔進行分段處理,得到所述若干個段落。
7.如權利要求6所述的方法,其中,所述確定所述用戶問題分別與所述知識庫中的各文檔之間的匹配度,包括:
確定所述用戶問題包括的至少一個關鍵詞;
利用所述至少一個關鍵詞與所述知識庫中的各文檔進行匹配,得到所述匹配度。
8.如權利要求6所述的方法,其中,所述將所述預設數目個文檔進行分段處理,包括:
獲取所述預設數目個文檔中的原始段落構成的段落集合;
根據所述原始段落與所述用戶問題的相關得分,將所述段落集合中的相關得分小于預設分值的原始段落過濾;
針對過濾后的所述段落集合中的各原始段落,篩選出段落長度小于第一閾值的原始段落,對篩選出的原始段落進行合并,以使合并后的段落長度大于第一閾值;
針對過濾后的所述段落集合中的各原始段落,篩選出段落長度大于第二閾值的原始段落,對篩選出的原始段落進行切分,以使切分后的段落長度小于第二閾值。
9.如權利要求1所述的方法,其中,所述方法還包括:
根據所述用戶問題分別與所述若干個段落的匹配度,按照匹配度由高到低的順序對所述若干個段落進行排序;
根據所述若干個段落的排序,確定所述若干個段落中包含的多個答案的排序,以便按照排序返回多個答案,以及多個答案分別的起始位置和終止位置。
10.如權利要求9所述的方法,其中,所述用戶問題分別與所述若干個段落的匹配度通過如下方式確定:
將所述用戶問題和所述若干個段落中的任一個段落輸入預先訓練的段落匹配模型,得到所述用戶問題與該段落的匹配度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于支付寶(杭州)信息技術有限公司,未經支付寶(杭州)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110779953.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:推薦處理方法及裝置
- 下一篇:一種圖像的相關性分析裝置





