[發(fā)明專利]問答對數(shù)據(jù)的生成方法、裝置及電子設備有效
| 申請?zhí)枺?/td> | 201910834465.X | 申請日: | 2019-09-04 |
| 公開(公告)號: | CN110532348B | 公開(公告)日: | 2022-03-22 |
| 發(fā)明(設計)人: | 邵建智;席亞東;張榮升;毛曉曦;范長杰 | 申請(專利權)人: | 網(wǎng)易(杭州)網(wǎng)絡有限公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/33;G06F16/332;G06F16/953;G06N3/08 |
| 代理公司: | 北京超成律師事務所 11646 | 代理人: | 吳迪 |
| 地址: | 310052 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 答對 數(shù)據(jù) 生成 方法 裝置 電子設備 | ||
本發(fā)明提供了一種問答對數(shù)據(jù)的生成方法、裝置及電子設備,涉及人工智能的技術領域,該方法包括:獲取問答對語料庫和指定的交互文本數(shù)據(jù);構建問答對語料庫對應的第一文本搜索引擎和交互文本數(shù)據(jù)對應的第二文本搜索引擎;從交互文本數(shù)據(jù)中抽取問題文本,利用第一文本搜索引擎和第二文本搜索引擎搜索問題文本的候選答案,生成問答對候選集;應用篩選模型對問答對候選集進行篩選,得到問答對數(shù)據(jù)組,并保存為問答對數(shù)據(jù)。本發(fā)明提供的問答對數(shù)據(jù)的生成方法、裝置及電子設備,能夠將交互文本數(shù)據(jù)進行合理利用,豐富現(xiàn)有的問答對數(shù)據(jù),以提高交互文本數(shù)據(jù)的利用率,同時,通過篩選模型篩選的方式也可以得到較高質量的問答對數(shù)據(jù)。
技術領域
本發(fā)明涉及數(shù)據(jù)處理領域,尤其是涉及一種問答對數(shù)據(jù)的生成方法、裝置及電子設備。
背景技術
聊天機器人是應用自然語言處理(Natural Language Process,NLP)技術的一個重要領域,聊天機器人的交互過程多依賴相應的聊天語料來進行,其回復的語句均來自于語料庫中的回答,且回復的質量也依賴于語料庫的質量。
目前,聊天機器人的語料庫的主要來源是網(wǎng)絡的聊天數(shù)據(jù),再經(jīng)過數(shù)據(jù)清洗和過濾,進而獲得相應的語料,但是這些聊天數(shù)據(jù)往往不是直接的對話形式,其問題和回復的邏輯相關性不夠明確,因此,難以形成合適的語料,降低了聊天數(shù)據(jù)的利用率。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的在于提供一種問答對數(shù)據(jù)的生成方法、裝置及電子設備,以緩解聊天數(shù)據(jù)的邏輯相關性不夠明確的問題,提高聊天數(shù)據(jù)的利用率。
第一方面,本發(fā)明實施例提供了一種問答對數(shù)據(jù)的生成方法,包括:獲取問答對語料庫和指定的交互文本數(shù)據(jù);構建問答對語料庫對應的第一文本搜索引擎和交互文本數(shù)據(jù)對應的第二文本搜索引擎;從交互文本數(shù)據(jù)中抽取問題文本;對于每個問題文本,均利用第一文本搜索引擎和第二文本搜索引擎,分別在問答對語料庫和交互文本數(shù)據(jù)中搜索問題文本的候選答案,以生成問答對候選集;其中,問答對候選集包括多個問答對數(shù)據(jù)組,每個問答對數(shù)據(jù)組包括一個問題文本和該問題文本對應的至少一個候選答案;對于問答對候選集中的每個問答對數(shù)據(jù)組,均應用預先訓練好的篩選模型篩選問答對數(shù)據(jù)組,將篩選后得到的問答對數(shù)據(jù)組保存為問答對數(shù)據(jù)。
結合第一方面,本發(fā)明實施例提供了第一方面的第一種可能的實施方式,其中,上述利用第一文本搜索引擎和第二文本搜索引擎基于問答對語料庫和交互文本數(shù)據(jù)搜索問題文本的候選答案的步驟包括:利用第一文本搜索引擎在問答對語料庫中搜索問題文本的相似問題;獲取問答對語料庫中相似問題對應的答案,生成第一答案集合;將第一答案集合中的每個答案輸入至第二文本搜索引擎,以在交互文本數(shù)據(jù)中搜索答案的相似答案,生成第二答案集合;將第二答案集合中包括的相似答案確定為問題文本的候選答案。
結合第一方面,本發(fā)明實施例提供了第一方面的第二種可能的實施方式,其中,上述篩選模型包括:問題-答案判別模型和/或問題-答案匹配模型;應用預先訓練好的篩選模型篩選問答對數(shù)據(jù)組的步驟包括:應用預先訓練好的問題-答案判別模型和/或問題-答案匹配模型對問答對數(shù)據(jù)組進行篩選;其中,問題-答案判別模型為基于概率預測的模型,問題-答案匹配模型為基于匹配機制的模型。
結合第一方面的第二種可能的實施方式,本發(fā)明實施例提供了第一方面的第三種可能的實施方式,其中,上述應用預先訓練好的問題-答案判別模型對問答對數(shù)據(jù)組進行篩選的步驟包括:將問答對數(shù)據(jù)組輸入至問題-答案判別模型,通過問題-答案判別模型對問答對數(shù)據(jù)組的問題文本和該問題文本對應的至少一個候選答案進行概率預測;如果問題文本的概率高于預先設置的第一概率閾值,且,問題文本對應的至少一個候選答案的概率低于預先設置的第二概率閾值,輸出問題文本和問題文本對應的候選答案;其中,第一概率閾值高于第二概率閾值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于網(wǎng)易(杭州)網(wǎng)絡有限公司,未經(jīng)網(wǎng)易(杭州)網(wǎng)絡有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910834465.X/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結構
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





