[發明專利]針對用戶問題和知識庫返回答案的方法和裝置在審
| 申請號: | 202110779953.2 | 申請日: | 2021-07-09 |
| 公開(公告)號: | CN113435213A | 公開(公告)日: | 2021-09-24 |
| 發明(設計)人: | 韋峰;陳召群 | 申請(專利權)人: | 支付寶(杭州)信息技術有限公司 |
| 主分類號: | G06F40/35 | 分類號: | G06F40/35;G06F40/211;G06K9/62 |
| 代理公司: | 北京億騰知識產權代理事務所(普通合伙) 11309 | 代理人: | 陳霽;周良玉 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 針對 用戶 問題 知識庫 返回 答案 方法 裝置 | ||
本說明書實施例提供一種針對用戶問題和知識庫返回答案的方法和裝置,方法包括:獲取用戶問題;確定與所述用戶問題相關聯的若干個段落,所述若干個段落來自于所述多個文檔;將用戶問題和若干個段落中的任一個段落輸入機器閱讀理解模型,得到該段落中是否包含答案的標記,以及答案的起始位置和終止位置,以便返回多個答案,以及多個答案分別的起始位置和終止位置。能夠針對用戶問題和知識庫直接返回答案。
技術領域
本說明書一個或多個實施例涉及計算機領域,尤其涉及針對用戶問題和知識庫返回答案的方法和裝置。
背景技術
知識庫中包含著大量的文檔,通常可以利用搜索引擎,由用戶輸入其需求,根據用戶的需求向用戶返回信息。
傳統的搜索引擎對于用戶的需求大都是淺層語義理解,缺乏對用戶搜索訴求的真正理解。例如,基于分詞和關鍵詞匹配以及簡單地淺層語義匹配,直觀的感覺關鍵詞出現次數越多,權重越高,在搜索結果中的排名越靠前。用戶需要自己去挑選合適的關鍵詞來表達其想要搜索的問題,并且搜索結果質量比較差,只能給出文檔的排序,不能直接返回答案,用戶往往需要進行多次結果的檢索才能從文檔中找到答案。
因此,希望能有改進的方案,能夠針對用戶問題和知識庫直接返回答案。
發明內容
本說明書一個或多個實施例描述了一種針對用戶問題和知識庫返回答案的方法和裝置,能夠針對用戶問題和知識庫直接返回答案。
第一方面,提供了一種針對用戶問題和知識庫返回答案的方法,所述知識庫包括多個文檔,方法包括:
獲取用戶問題;
確定與所述用戶問題相關聯的若干個段落,所述若干個段落來自于所述多個文檔;
將所述用戶問題和所述若干個段落中的任一個段落輸入機器閱讀理解模型,得到該段落中是否包含答案的標記,以及答案的起始位置和終止位置,以便返回多個答案,以及多個答案分別的起始位置和終止位置。
在一種可能的實施方式中,所述獲取用戶問題,包括:
獲取用戶輸入的原始問句;
將所述原始問句輸入預先訓練的問題改寫模型,得到所述用戶問題。
進一步地,所述知識庫屬于目標領域;
所述問題改寫模型采用如下方式進行訓練:
基于通用的多個領域的第一訓練樣本對所述問題改寫模型進行訓練,得到初始訓練后的所述問題改寫模型;
基于所述目標領域的第二訓練樣本對初始訓練后的所述問題改寫模型進行微調,得到微調后的所述問題改寫模型。
進一步地,所述第一訓練樣本通過如下方式獲得:
獲取對應于同一問題的多個答案,所述多個答案包括第一答案和第二答案;
將所述第一答案作為樣本輸入,所述第二答案作為樣本標簽,得到所述第一訓練樣本。
進一步地,所述第二訓練樣本通過如下方式獲得:
獲取原始問題和改寫后的問題;
將所述原始問題作為樣本輸入,所述改寫后的問題作為樣本標簽,得到所述第二訓練樣本。
在一種可能的實施方式中,所述確定與所述用戶問題相關聯的若干個段落,包括:
確定所述用戶問題分別與所述知識庫中的各文檔之間的匹配度,從所述知識庫中選擇出匹配度最高的預設數目個文檔;
將所述預設數目個文檔進行分段處理,得到所述若干個段落。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于支付寶(杭州)信息技術有限公司,未經支付寶(杭州)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110779953.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:推薦處理方法及裝置
- 下一篇:一種圖像的相關性分析裝置





