[發(fā)明專利]一種用于對話交互系統(tǒng)的數(shù)據(jù)處理方法及裝置有效
| 申請?zhí)枺?/td> | 201710017117.4 | 申請日: | 2017-01-11 |
| 公開(公告)號: | CN106844587B | 公開(公告)日: | 2019-11-08 |
| 發(fā)明(設(shè)計(jì))人: | 包強(qiáng) | 申請(專利權(quán))人: | 北京光年無限科技有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332 |
| 代理公司: | 北京聿華聯(lián)合知識產(chǎn)權(quán)代理有限公司 11611 | 代理人: | 李哲偉;張文娟 |
| 地址: | 100000 北京市石景山區(qū)石景山*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 用于 對話 交互 系統(tǒng) 數(shù)據(jù)處理 方法 裝置 | ||
一種用于對話交互系統(tǒng)的數(shù)據(jù)處理方法及裝置,其中,該方法包括:獲取用戶輸入的對話交互數(shù)據(jù)并解析,生成對話交互數(shù)據(jù)對應(yīng)的候選答案集合;計(jì)算對話交互數(shù)據(jù)與預(yù)設(shè)問題答案集合中各個(gè)問題的相似度,并根據(jù)各個(gè)問題的相似度確定最相似問題,預(yù)設(shè)問題答案集合中問題與其對應(yīng)答案的相關(guān)度滿足設(shè)定的高相關(guān)度標(biāo)準(zhǔn);獲取預(yù)設(shè)問題答案集合中最相似問題的答案,并計(jì)算最相似問題的答案與候選答案集合中各個(gè)答案的相似度,根據(jù)候選答案集合中各個(gè)答案的相似度從候選答案集合中確定出相似度最高的答案并輸出。本方法通過借用高相關(guān)度的問題答案集合,保證了對話交互中,對交互信息輸出與其相關(guān)度最高的回復(fù),保證了對話交互質(zhì)量,提升了對話交互過程中的用戶體驗(yàn)。
技術(shù)領(lǐng)域
本發(fā)明涉及機(jī)器人技術(shù)領(lǐng)域,具體地說,涉及一種用于對話交互系統(tǒng)的數(shù)據(jù)處理方法及裝置。
背景技術(shù)
隨著科學(xué)技術(shù)的不斷發(fā)展,信息技術(shù)、計(jì)算機(jī)技術(shù)以及人工智能技術(shù)的引入,機(jī)器人的研究已經(jīng)逐步走出工業(yè)領(lǐng)域,逐漸擴(kuò)展到了醫(yī)療、保健、家庭、娛樂以及服務(wù)行業(yè)等領(lǐng)域。而人們對于機(jī)器人的要求也從簡單重復(fù)的機(jī)械動(dòng)作提升為具有擬人問答、自主性及與其他機(jī)器人進(jìn)行交互的智能機(jī)器人,人機(jī)交互也就成為決定智能機(jī)器人發(fā)展的重要因素。
機(jī)器人通常采用對話交互系統(tǒng)來實(shí)現(xiàn)與用戶之間的人機(jī)對話,對話交互系統(tǒng)的實(shí)現(xiàn)架構(gòu)大體可以分為檢索式模型和生成式模型兩種。其中,檢索式模型是從已經(jīng)存在的語料中查找與問題最為匹配的答案,其準(zhǔn)確率較高但適應(yīng)性較差。與之相反,生成式模型則是通過大量的語料和機(jī)器學(xué)習(xí)算法訓(xùn)練得到的,其具有很好的系統(tǒng)適應(yīng)性,但是目前無法保證較高的準(zhǔn)確率。由于檢索式模型合乎語法并且相對可靠可控,因此目前行業(yè)內(nèi)仍然以采用檢索式模型為主。
然而,對于檢索式模型來說,其語料庫中問題與答案的質(zhì)量的好壞將直接影響其用戶體驗(yàn)。如果語料庫質(zhì)量不佳的話,很可能會(huì)造成對話交互系統(tǒng)與用戶之間的交互出現(xiàn)前言不搭后語或是輸出不提供任何信息的應(yīng)付性答案等問題,這都對對話系統(tǒng)的用戶體驗(yàn)有著致命影響。
發(fā)明內(nèi)容
為解決上述問題,本發(fā)明提供了一種用于對話交互系統(tǒng)的數(shù)據(jù)處理方法,其包括:
對話交互數(shù)據(jù)獲取步驟,獲取用戶輸入的對話交互數(shù)據(jù)并解析,生成所述對話交互數(shù)據(jù)對應(yīng)的候選答案集合;
最相似問題確定步驟,計(jì)算所述對話交互數(shù)據(jù)與預(yù)設(shè)問題答案集合中各個(gè)問題的相似度,并根據(jù)各個(gè)問題的相似度確定最相似問題,所述預(yù)設(shè)問題答案集合中問題與其對應(yīng)答案的相關(guān)度滿足設(shè)定的高相關(guān)度標(biāo)準(zhǔn)。
答案生成步驟,獲取所述預(yù)設(shè)問題答案集合中所述最相似問題的答案,并計(jì)算所述最相似問題的答案與所述候選答案集合中各個(gè)答案的相似度,根據(jù)所述候選答案集合中各個(gè)答案的相似度從所述候選答案集合中確定出相似度最高的答案并輸出。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,在所述最相似問題確定步驟中,計(jì)算所述對話交互數(shù)據(jù)與預(yù)設(shè)問題答案集合中各個(gè)問題的相似度的步驟包括:
對所述對話交互數(shù)據(jù)進(jìn)行分詞處理,獲取所述對話交互數(shù)據(jù)中各個(gè)分詞的詞向量;
根據(jù)所述對話交互數(shù)據(jù)中各個(gè)分詞的詞向量及其權(quán)重,計(jì)算所述對話交互數(shù)據(jù)的句向量;
獲取所述預(yù)設(shè)問題答案集合中各個(gè)問題的句向量,計(jì)算所述對話交互數(shù)據(jù)的句向量與預(yù)設(shè)問題答案集合中各個(gè)問題的句向量的相似度,得到所述對話交互數(shù)據(jù)與預(yù)設(shè)問題答案集合中各個(gè)問題的相似度。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,根據(jù)tf-idf算法計(jì)算所述對話交互數(shù)據(jù)中各個(gè)分詞的權(quán)重。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,在所述答案生成步驟中,如果所述最相似問題的答案與所述候選答案集合中各個(gè)答案的相似度均小于預(yù)設(shè)相似度閾值,則對所述候選答案集合進(jìn)行聚類迭代,確定所述候選答案集合中與所述對話交互數(shù)據(jù)最相關(guān)的答案并輸出。
本發(fā)明還提供了一種用于對話交互系統(tǒng)的數(shù)據(jù)處理裝置,其包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京光年無限科技有限公司,未經(jīng)北京光年無限科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710017117.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:火焰防護(hù)罩
- 下一篇:一種用于運(yùn)輸變壓器線圈的裝置
- 對話控制裝置、對話控制方法以及記錄介質(zhì)
- 任務(wù)對話系統(tǒng)中的對話處理方法及裝置
- 一種人機(jī)對話的方法、裝置和存儲介質(zhì)
- 對話(中)獎(jiǎng)勵(lì)評估和對話方法、介質(zhì)、裝置和計(jì)算設(shè)備
- 一種對話方法、裝置、服務(wù)器及存儲介質(zhì)
- 一種輔助英文對話的方法及系統(tǒng)
- 一種回復(fù)對話評分模型訓(xùn)練方法、對話回復(fù)方法及其裝置
- 一種多輪對話的問題定位方法及裝置
- 文本對話方法、裝置、電子設(shè)備及存儲介質(zhì)
- 對話型文本分類方法、系統(tǒng)、設(shè)備及存儲介質(zhì)





