[發(fā)明專利]對(duì)話系統(tǒng)訓(xùn)練數(shù)據(jù)構(gòu)建方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 201910215916.1 | 申請(qǐng)日: | 2019-03-21 |
| 公開(公告)號(hào): | CN109947924B | 公開(公告)日: | 2021-08-31 |
| 發(fā)明(設(shè)計(jì))人: | 韓磊;張紅陽;陳雷 | 申請(qǐng)(專利權(quán))人: | 百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司 |
| 主分類號(hào): | G06F16/332 | 分類號(hào): | G06F16/332;G06F16/33;G06F16/335 |
| 代理公司: | 北京清亦華知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201 | 代理人: | 宋合成 |
| 地址: | 100085 北京市*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 對(duì)話 系統(tǒng) 訓(xùn)練 數(shù)據(jù) 構(gòu)建 方法 裝置 電子設(shè)備 存儲(chǔ) 介質(zhì) | ||
1.一種對(duì)話系統(tǒng)訓(xùn)練數(shù)據(jù)構(gòu)建方法,其特征在于,包括:
對(duì)對(duì)話系統(tǒng)的歷史使用數(shù)據(jù)進(jìn)行統(tǒng)計(jì)處理,確定所述對(duì)話系統(tǒng)對(duì)應(yīng)的歷史查詢語句集、每個(gè)歷史查詢語句對(duì)應(yīng)的查詢頻次及每個(gè)歷史查詢語句對(duì)應(yīng)的識(shí)別結(jié)果,其中,所述歷史查詢語句對(duì)應(yīng)的識(shí)別結(jié)果包括所述歷史查詢語句對(duì)應(yīng)的對(duì)話意圖、槽位中的至少一種;
根據(jù)每個(gè)歷史查詢語句對(duì)應(yīng)的查詢頻次,對(duì)所述歷史查詢語句集中各歷史查詢語句進(jìn)行排序處理;
確定排序順序位于預(yù)設(shè)范圍內(nèi)、且包含識(shí)別結(jié)果的歷史查詢語句,為參考查詢語句,其中,所述預(yù)設(shè)范圍為排序順序的前N%,N大于0且小于或等于100;
判斷全部參考查詢語句的數(shù)量是否大于第一閾值;
若是,則利用所述全部參考查詢語句及所述全部參考查詢語句對(duì)應(yīng)的識(shí)別結(jié)果,構(gòu)建所述對(duì)話系統(tǒng)的訓(xùn)練數(shù)據(jù)集,其中,將所述參考查詢語句對(duì)應(yīng)的識(shí)別結(jié)果,作為所述參考查詢語句對(duì)應(yīng)的標(biāo)注信息。
2.如權(quán)利要求1所述的方法,其特征在于,所述判斷全部參考查詢語句的數(shù)量是否大于第一閾值之后,還包括:
若否,則根據(jù)每個(gè)參考查詢語句與每個(gè)非參考查詢語句的語義相似度、及參考查詢語句對(duì)應(yīng)的第一識(shí)別結(jié)果與非參考查詢語句對(duì)應(yīng)的第二識(shí)別結(jié)果間的匹配度,從非參考查詢語句中獲取補(bǔ)充查詢語句;
所述構(gòu)建所述對(duì)話系統(tǒng)的訓(xùn)練數(shù)據(jù)集,包括:
利用所述全部參考查詢語句、全部參考查詢語句對(duì)應(yīng)的識(shí)別結(jié)果、全部補(bǔ)充查詢語句及全部補(bǔ)充查詢語句對(duì)應(yīng)的識(shí)別結(jié)果,構(gòu)建所述對(duì)話系統(tǒng)的訓(xùn)練數(shù)據(jù)集。
3.如權(quán)利要求2所述的方法,其特征在于,所述從非參考查詢語句中獲取補(bǔ)充查詢語句,包括:
獲取與任一參考查詢語句的語義相似度大于第二閾值、且與所述任一參考查詢語句的對(duì)話意圖的匹配度大于第三閾值的非參考查詢語句,為補(bǔ)充查詢語句。
4.如權(quán)利要求2所述的方法,其特征在于,所述從非參考查詢語句中獲取補(bǔ)充查詢語句之后,還包括:
將匹配度大于第三閾值的第一識(shí)別結(jié)果及第二識(shí)別結(jié)果進(jìn)行歸一化處理。
5.如權(quán)利要求4所述的方法,其特征在于,所述構(gòu)建所述對(duì)話系統(tǒng)的訓(xùn)練數(shù)據(jù)集之后,還包括:
確定所述訓(xùn)練數(shù)據(jù)集中包含的識(shí)別結(jié)果的數(shù)量及每種識(shí)別結(jié)果對(duì)應(yīng)的查詢語句的數(shù)量;
判斷各識(shí)別結(jié)果對(duì)應(yīng)的查詢語句的數(shù)量間的差值是否均在預(yù)設(shè)范圍內(nèi);
若否,則對(duì)所述訓(xùn)練數(shù)據(jù)集中的各識(shí)別結(jié)果對(duì)應(yīng)的查詢語句進(jìn)行均衡處理,生成所述對(duì)話系統(tǒng)更新后的訓(xùn)練數(shù)據(jù)集。
6.一種對(duì)話系統(tǒng)訓(xùn)練數(shù)據(jù)構(gòu)建裝置,其特征在于,包括:
第一確定模塊,用于對(duì)對(duì)話系統(tǒng)的歷史使用數(shù)據(jù)進(jìn)行統(tǒng)計(jì)處理,確定所述對(duì)話系統(tǒng)對(duì)應(yīng)的歷史查詢語句集、每個(gè)歷史查詢語句對(duì)應(yīng)的查詢頻次及每個(gè)歷史查詢語句對(duì)應(yīng)的識(shí)別結(jié)果,其中,所述歷史查詢語句對(duì)應(yīng)的識(shí)別結(jié)果包括所述歷史查詢語句對(duì)應(yīng)的對(duì)話意圖、槽位中的至少一種;
排序單元,用于根據(jù)每個(gè)歷史查詢語句對(duì)應(yīng)的查詢頻次,對(duì)所述歷史查詢語句集中各歷史查詢語句進(jìn)行排序處理;
確定單元,用于確定排序順序位于預(yù)設(shè)范圍內(nèi)、且包含識(shí)別結(jié)果的歷史查詢語句,為參考查詢語句,其中,所述預(yù)設(shè)范圍為排序順序的前N%,N大于0且小于或等于100;
第一判斷模塊,用于判斷全部參考查詢語句的數(shù)量是否大于第一閾值;
構(gòu)建模塊,用于若是,則利用所述全部參考查詢語句及所述全部參考查詢語句對(duì)應(yīng)的識(shí)別結(jié)果,構(gòu)建所述對(duì)話系統(tǒng)的訓(xùn)練數(shù)據(jù)集,其中,將所述參考查詢語句對(duì)應(yīng)的識(shí)別結(jié)果,作為所述參考查詢語句對(duì)應(yīng)的標(biāo)注信息。
7.如權(quán)利要求6所述的裝置,其特征在于,還包括:
第二獲取模塊,用于若否,則根據(jù)每個(gè)參考查詢語句與每個(gè)非參考查詢語句的語義相似度、及參考查詢語句對(duì)應(yīng)的第一識(shí)別結(jié)果與非參考查詢語句對(duì)應(yīng)的第二識(shí)別結(jié)果間的匹配度,從非參考查詢語句中獲取補(bǔ)充查詢語句;
所述構(gòu)建模塊,包括:
構(gòu)建單元,用于利用所述全部參考查詢語句、全部參考查詢語句對(duì)應(yīng)的識(shí)別結(jié)果、全部補(bǔ)充查詢語句及全部補(bǔ)充查詢語句對(duì)應(yīng)的識(shí)別結(jié)果,構(gòu)建所述對(duì)話系統(tǒng)的訓(xùn)練數(shù)據(jù)集。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司,未經(jīng)百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910215916.1/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 對(duì)話控制裝置、對(duì)話控制方法以及記錄介質(zhì)
- 任務(wù)對(duì)話系統(tǒng)中的對(duì)話處理方法及裝置
- 一種人機(jī)對(duì)話的方法、裝置和存儲(chǔ)介質(zhì)
- 對(duì)話(中)獎(jiǎng)勵(lì)評(píng)估和對(duì)話方法、介質(zhì)、裝置和計(jì)算設(shè)備
- 一種對(duì)話方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 一種輔助英文對(duì)話的方法及系統(tǒng)
- 一種回復(fù)對(duì)話評(píng)分模型訓(xùn)練方法、對(duì)話回復(fù)方法及其裝置
- 一種多輪對(duì)話的問題定位方法及裝置
- 文本對(duì)話方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 對(duì)話型文本分類方法、系統(tǒng)、設(shè)備及存儲(chǔ)介質(zhì)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





