[發明專利]基于人工智能的問答數據處理方法、裝置及電子設備有效
| 申請號: | 202010019179.0 | 申請日: | 2020-01-08 |
| 公開(公告)號: | CN111209384B | 公開(公告)日: | 2023-08-15 |
| 發明(設計)人: | 司鵬達;鄧強;鐘濱;徐進 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F40/30 |
| 代理公司: | 北京派特恩知識產權代理有限公司 11270 | 代理人: | 王花麗;張穎玲 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 人工智能 問答 數據處理 方法 裝置 電子設備 | ||
1.一種基于人工智能的問答數據處理方法,其特征在于,所述方法包括:
獲取問答數據的語義特征;
對所述問答數據的語義特征進行解耦處理,得到所述問答數據的實體特征以及所述問答數據的意圖特征;
基于所述實體特征確定所述問答數據對應實體維度匹配的實體匹配分數,并基于所述意圖特征確定所述問答數據對應意圖維度匹配的意圖匹配分數;
當所述實體匹配分數以及所述意圖匹配分數中的至少一個滿足對應的答非所問條件時,確定所述問答數據屬于答非所問的類型;
其中,所述基于所述實體特征確定所述問答數據對應實體維度匹配的實體匹配分數,并基于所述意圖特征確定所述問答數據對應意圖維度匹配的意圖匹配分數,包括:通過問答匹配模型中的實體匹配層,并結合對應所述問答數據的實體特征對所述問答數據進行分類,得到所述問答數據為基于實體維度匹配的問答數據的第一概率,以作為所述實體匹配分數;通過問答匹配模型中的意圖匹配層,并結合對應所述問答數據的意圖特征對所述問答數據進行分類,得到所述問答數據為基于意圖維度匹配的問答數據的第二概率,以作為所述意圖匹配分數。
2.根據權利要求1所述的方法,其特征在于,獲取問答數據的語義特征之前,所述方法還包括:
當用于答復問題的文本的長度超過文本長度閾值時,提取所述文本的摘要以作為所述問題的答案,并結合所述問題組成問答數據;
當用于答復問題的文本長度不超過文本長度閾值時,將所述文本作為所述問題的答案,并結合所述問題組成問答數據。
3.根據權利要求1所述的方法,其特征在于,所述獲取問答數據的語義特征,包括:
通過語義特征提取網絡的各特征提取層,分別提取表征所述問答數據中問題與答案之間的語義關系的子語義特征;
結合對應各特征提取層中的權重,對所述各特征提取層所提取的子語義特征進行加權處理,得到表征所述問答數據中問題與答案之間的語義關系的語義特征;
其中,所述語義關系包括所述問題與所述答案在實體維度的匹配關系、以及所述問題與所述答案在意圖維度的匹配關系。
4.根據權利要求1所述的方法,其特征在于,所述對所述問答數據的語義特征進行解耦處理,得到所述問答數據的實體特征以及所述問答數據的意圖特征,包括:
通過問答匹配模型中的實體全連接層,將所述問答數據的語義特征,從語義特征空間映射到實體特征空間,以得到用于表征實體維度匹配信息的實體特征;
通過問答匹配模型中的意圖全連接層,將所述問答數據的語義特征,從語義特征空間映射到意圖特征空間,以得到用于表征意圖維度匹配信息的意圖特征;
其中,所述實體全連接層和所述意圖全連接層是基于對抗訓練得到的。
5.根據權利要求1所述的方法,其特征在于,所述當所述實體匹配分數以及所述意圖匹配分數中的至少一個滿足對應的答非所問條件時,確定所述問答數據屬于答非所問的類型,包括:
當滿足以下條件至少之一時,確定所述問答數據屬于答非所問的類型:
所述實體匹配分數小于實體匹配分數閾值;
所述意圖匹配分數小于意圖匹配分數閾值。
6.根據權利要求1所述的方法,其特征在于,所述方法還包括:
對經過人工標注的標準問答數據樣本進行數據增強處理,以構建訓練樣本集合;
其中,所述經過人工標注的標準問答數據樣本由相互匹配的問題樣本和答案樣本組成;
構建用于識別出答非所問的類型的問答匹配模型;
基于所述訓練樣本集合,對所述問答匹配模型進行訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010019179.0/1.html,轉載請聲明來源鉆瓜專利網。





