[發明專利]問答對數據的生成方法、裝置及電子設備有效
| 申請號: | 201910834465.X | 申請日: | 2019-09-04 |
| 公開(公告)號: | CN110532348B | 公開(公告)日: | 2022-03-22 |
| 發明(設計)人: | 邵建智;席亞東;張榮升;毛曉曦;范長杰 | 申請(專利權)人: | 網易(杭州)網絡有限公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/33;G06F16/332;G06F16/953;G06N3/08 |
| 代理公司: | 北京超成律師事務所 11646 | 代理人: | 吳迪 |
| 地址: | 310052 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 答對 數據 生成 方法 裝置 電子設備 | ||
1.一種問答對數據的生成方法,其特征在于,包括:
獲取問答對語料庫和指定的交互文本數據;
構建所述問答對語料庫對應的第一文本搜索引擎和所述交互文本數據對應的第二文本搜索引擎;
從所述交互文本數據中抽取問題文本;
對于每個所述問題文本,利用所述第一文本搜索引擎和所述第二文本搜索引擎基于所述問答對語料庫和所述交互文本數據搜索所述問題文本的候選答案,以生成問答對候選集;其中,所述問答對候選集包括多個問答對數據組,每個所述問答對數據組包括一個問題文本和該問題文本對應的至少一個候選答案;
對于所述問答對候選集中的每個所述問答對數據組,均應用預先訓練好的篩選模型篩選所述問答對數據組,將篩選后得到的所述問答對數據組保存為問答對數據;
其中,所述篩選模型包括:問題-答案判別模型和/或問題-答案匹配模型;
應用預先訓練好的篩選模型篩選所述問答對數據組的步驟包括:
應用預先訓練好的所述問題-答案判別模型和/或所述問題-答案匹配模型對所述問答對數據組進行篩選;其中,所述問題-答案判別模型為基于概率預測的模型,所述問題-答案匹配模型為基于匹配機制的模型;
其中,應用預先訓練好的所述問題-答案判別模型對所述問答對數據組進行篩選的步驟包括:
將所述問答對數據組輸入至所述問題-答案判別模型,通過所述問題-答案判別模型對所述問答對數據組的問題文本和該問題文本對應的至少一個所述候選答案進行概率預測;如果所述問題文本的概率高于預先設置的第一概率閾值,且,所述問題文本對應的至少一個所述候選答案的概率低于預先設置的第二概率閾值,輸出所述問題文本和所述問題文本對應的候選答案;其中,所述第一概率閾值高于所述第二概率閾值;
或者,應用預先訓練好的問題-答案匹配模型對所述問答對數據組中的候選答案進行篩選的步驟包括:
將所述問答對數據組中的問題文本與每個候選答案逐一輸入至所述問題-答案匹配模型,計算所述問題文本和所述候選答案的匹配度,并將匹配度高于預設的匹配度閾值的所述問題文本和所述候選答案,作為篩選后的所述問答對數據組輸出;
或者,應用預先訓練好的所述問題-答案判別模型和所述問題-答案匹配模型對所述問答對數據組中的候選答案進行篩選的步驟包括:
將所述問答對數據組輸入至所述問題-答案判別模型,通過所述問題-答案判別模型對所述問答對數據組中的問題文本和所述問題文本對應的至少一個所述候選答案進行概率預測;如果所述問題文本的概率高于預先設置的第一概率閾值,且,所述問題文本對應的至少一個所述候選答案的概率低于預先設置的第二概率閾值,輸出所述問題文本和所述問題文本對應的候選答案;其中,所述第一概率閾值高于所述第二概率閾值;將所述問題-答案判別模型輸出的所述問題文本和所述問題文本對應的候選答案輸入至所述問題-答案匹配模型,以對所述問題文本和所述問題文本對應的候選答案進行匹配;如果所述問題文本和所述問題文本對應的候選答案的匹配度高于預先設置的匹配度閾值,輸出所述問題文本和所述問題文本對應的候選答案。
2.根據權利要求1所述的方法,其特征在于,利用所述第一文本搜索引擎和所述第二文本搜索引擎基于所述問答對語料庫和所述交互文本數據搜索所述問題文本的候選答案的步驟包括:
利用所述第一文本搜索引擎在所述問答對語料庫中搜索所述問題文本的相似問題;
獲取所述問答對語料庫中所述相似問題對應的答案,生成第一答案集合;
將所述第一答案集合中的每個所述答案輸入至所述第二文本搜索引擎,以在所述交互文本數據中搜索所述答案的相似答案,生成第二答案集合;
將所述第二答案集合中包括的所述相似答案確定為所述問題文本的候選答案。
3.根據權利要求1所述的方法,其特征在于,所述方法還包括:
如果所述問題文本的概率低于所述第一概率閾值,或者,所述問題文本對應的所述候選答案的概率高于所述第二概率閾值,則丟棄所述問題文本和所述候選答案。
4.根據權利要求1所述的方法,其特征在于,所述方法還包括:
如果所述問題文本和所述問題文本對應的候選答案的匹配度低于所述匹配度閾值,則丟棄所述問題文本和所述候選答案。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于網易(杭州)網絡有限公司,未經網易(杭州)網絡有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910834465.X/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





