[發明專利]問題處理方法、裝置、計算機設備和存儲介質在審
| 申請號: | 202010174852.8 | 申請日: | 2020-03-13 |
| 公開(公告)號: | CN111400470A | 公開(公告)日: | 2020-07-10 |
| 發明(設計)人: | 費昊;馮曉;王昊;呂進 | 申請(專利權)人: | 深圳市騰訊計算機系統有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06N20/00 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 黃晶晶;李文淵 |
| 地址: | 518000 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 問題 處理 方法 裝置 計算機 設備 存儲 介質 | ||
本申請涉及一種問題處理方法、裝置、計算機設備和存儲介質。所述方法包括:獲取問題查詢語句;從預設問題庫中,查找與所述問題查詢語句匹配的候選問題;分別將所述問題查詢語句與各所述候選問題組成問題組合,輸入相似度預測模型中,輸出所述問題組合中候選問題與所述問題查詢語句之間的相似度;所述相似度預測模型,是將多個數據源的樣本問題組合和相應的相似度標簽作為訓練集,通過多任務迭代訓練對基礎語言模型的模型參數進行調整后得到的;選取相似度最高的候選問題,作為與所述問題查詢語句匹配的目標問題。采用本方法能夠提高處理準確率。
技術領域
本申請涉及自然語言處理技術領域,特別是涉及一種問題處理方法、裝置、計算機設備和存儲介質。
背景技術
隨著科學技術的飛速發展,自然語言處理技術也隨之不斷地發展。通常會使用自然語言處理技術來進行語句處理。比如,會使用自然語言處理技術處理進行語句相似度判斷。
傳統方法中,是直接使用樣本數據對初始的模型框架進行訓練,得到用于進行相似度識別的模型。然而,由于標注數據量有限,導致模型的預測準確性比較低,從而導致進行語句處理的準確率比較低。
發明內容
基于此,有必要針對上述技術問題,提供一種能夠提高語句處理準確率的問題處理方法、裝置、計算機設備和存儲介質。
一種問題處理方法,所述方法包括:
獲取問題查詢語句;
從預設問題庫中,查找與所述問題查詢語句匹配的候選問題;
分別將所述問題查詢語句與各所述候選問題組成問題組合,輸入相似度預測模型中,輸出所述問題組合中候選問題與所述問題查詢語句之間的相似度;所述相似度預測模型,是將多個數據源的樣本問題組合和相應的相似度標簽作為訓練集,通過多任務迭代訓練對基礎語言模型的模型參數進行調整后得到的;
選取相似度最高的候選問題,作為與所述問題查詢語句匹配的目標問題。
一種問題處理裝置,所述裝置包括:
查詢模塊,用于獲取問題查詢語句;從預設問題庫中,查找與所述問題查詢語句匹配的候選問題;
相似度預測模塊,用于分別將所述問題查詢語句與各所述候選問題組成問題組合,輸入相似度預測模型中,輸出所述問題組合中候選問題與所述問題查詢語句之間的相似度;所述相似度預測模型,是將多個數據源的樣本問題組合和相應的相似度標簽作為訓練集,通過多任務迭代訓練對基礎語言模型的模型參數進行調整后得到的;
匹配模塊,用于選取相似度最高的候選問題,作為與所述問題查詢語句匹配的目標問題。
在一個實施例中,所述裝置包括:
模型訓練模塊,用于獲取訓練集;所述訓練集,包括來自多個數據源的樣本問題組合和所述樣本問題組合所對應的相似度標簽;采用所述訓練集,對基礎語言模型迭代地進行多任務訓練,得到相似度預測模型。
在一個實施例中,模型訓練模塊還用于針對至少兩個基礎語言模型中每個基礎語言模型,采用所述訓練集,對所述基礎語言模型迭代地進行多任務訓練,得到與所述基礎語言模型對應的預測模型;不同所述基礎語言模型的處理粒度不同;根據與各基礎語言模型分別對應的所述預測模型,得到相似度預測模型。
在一個實施例中,模型訓練模塊還用于采用所述訓練集,對第一基礎語言模型迭代地進行多任務訓練,得到與第一基礎語言模型對應的預測模型;所述第一基礎語言模型,是以字符為處理粒度的基礎語言模型;采用所述訓練集,對第二基礎語言模型迭代地進行多任務訓練,得到與第二基礎語言模型對應的預測模型;所述第二基礎語言模型,是以詞為處理粒度的基礎語言模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市騰訊計算機系統有限公司,未經深圳市騰訊計算機系統有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010174852.8/2.html,轉載請聲明來源鉆瓜專利網。





