[發(fā)明專利]一種教育機(jī)器人對話數(shù)據(jù)集的生成方法、裝置及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202011147186.5 | 申請日: | 2020-10-23 |
| 公開(公告)號: | CN112256851A | 公開(公告)日: | 2021-01-22 |
| 發(fā)明(設(shè)計)人: | 閆曉宇;于丹;李雪;馬壯;王宇;管浩言 | 申請(專利權(quán))人: | 大連東軟教育科技集團(tuán)有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F40/186;G06K9/62 |
| 代理公司: | 大連東方專利代理有限責(zé)任公司 21212 | 代理人: | 李馨 |
| 地址: | 116000 遼寧省大*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 教育 機(jī)器人 對話 數(shù)據(jù) 生成 方法 裝置 存儲 介質(zhì) | ||
本發(fā)明提供一種教育機(jī)器人對話數(shù)據(jù)集的生成方法、裝置及存儲介質(zhì)。方法包括:獲取目標(biāo)課程的知識點清單,并根據(jù)知識點清單構(gòu)建對話機(jī)器人的封閉域;設(shè)定對話意圖和詞槽,所述詞槽為對話中的關(guān)鍵信息,其根據(jù)所述對話意圖的類型選擇,所述對話意圖類型包括通知類和需求類;構(gòu)建問句模板,所述問句模板包括首問句模板和再問句模板;根據(jù)對話機(jī)器人的封閉域生成對話目標(biāo);基于所述對話目標(biāo)和問句模板生成多輪對話語句。本發(fā)明可應(yīng)用于自然語言處理和數(shù)據(jù)生成領(lǐng)域,尤其是多輪問話數(shù)據(jù)集的生成,并基于生成的數(shù)據(jù)集,訓(xùn)練特定封閉域內(nèi)的任務(wù)驅(qū)動型多輪對話機(jī)器人。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理和數(shù)據(jù)生成領(lǐng)域,具體而言,尤其涉及一種教育機(jī)器人對話數(shù)據(jù)集的生成方法、裝置及存儲介質(zhì)。
背景技術(shù)
目前對于封閉域的任務(wù)驅(qū)動型多輪對話數(shù)據(jù)集大多由人工生成,這可以得到最接近人類自然語言的對話,例如DSTC系列數(shù)據(jù)集,WOZ,MultiWOZ,CrossWOZ等。這些數(shù)據(jù)集的生成針對于餐館、景點、酒店等特定的域,其包含的對話內(nèi)容緊緊耦合在這些域上,很難應(yīng)用到其它域的對話機(jī)器人訓(xùn)練過程中。此外用人工的方法生成數(shù)據(jù)集所需要的時間周期較長,更重要的是,人工產(chǎn)生對話數(shù)據(jù)集的價格是十分昂貴的,為多輪對話的研究帶來了阻力。
而另一方面,雖然我們可以根據(jù)需求編寫簡單的代碼自動生成一些對話語句,但這樣的文本結(jié)構(gòu)很難應(yīng)用到對話機(jī)器人的算法當(dāng)中。目前還沒有成熟的方法可以自動生成適合作為多輪對話相關(guān)算法輸入的數(shù)據(jù)集。
發(fā)明內(nèi)容
本發(fā)明公開了一種教育機(jī)器人多輪對話數(shù)據(jù)集的生成方法、裝置及存儲介質(zhì)。以解決現(xiàn)有技術(shù)中缺乏自動生成適合作為多輪對話相關(guān)算法輸入的數(shù)據(jù)集的技術(shù)問題。
本發(fā)明采用的技術(shù)手段如下:
一種教育機(jī)器人對話數(shù)據(jù)集的生成方法,包括:
獲取目標(biāo)課程的知識點清單,并根據(jù)知識點清單構(gòu)建對話機(jī)器人的封閉域;
設(shè)定對話意圖和詞槽,所述詞槽為對話中的關(guān)鍵信息,其根據(jù)所述對話意圖的類型選擇,所述對話意圖類型包括通知類和需求類;
構(gòu)建問句模板,所述問句模板包括首問句模板和再問句模板,所述首問句模板包含多輪對話進(jìn)行的必要信息,所述再問句在多輪對話首輪后的任意一輪問句生成時被調(diào)用;
根據(jù)對話機(jī)器人的封閉域生成對話目標(biāo);
基于所述對話目標(biāo)和問句模板生成多輪對話語句。
進(jìn)一步地,所述根據(jù)知識點清單構(gòu)建對話機(jī)器人的封閉域,還包括通過更新知識點清單切換對話機(jī)器人的封閉域。
進(jìn)一步地,所述通知類表示需要提供給機(jī)器人信息的意圖;請求類表示希望從機(jī)器人處得到信息的意圖。
一種教育機(jī)器人對話模型訓(xùn)練方法,包括:
重復(fù)執(zhí)行如上述任一項所述的教育機(jī)器人對話數(shù)據(jù)集的生成方法,生成教育機(jī)器人對話數(shù)據(jù)集,所述教育機(jī)器人對話數(shù)據(jù)集包括多輪對話的提問語句;
將所述教育機(jī)器人對話數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)集訓(xùn)練教育機(jī)器人對話模型;
基于所述教育機(jī)器人對話模型,實現(xiàn)人機(jī)對話。
一種教育機(jī)器人對話數(shù)據(jù)集的生成裝置,包括:
獲取單元,用于獲取目標(biāo)課程的知識點清單,并根據(jù)知識點清單構(gòu)建對話機(jī)器人的封閉域;
設(shè)定單元,用于設(shè)定對話意圖和詞槽,所述詞槽為對話中的關(guān)鍵信息,其根據(jù)所述對話意圖的類型選擇,所述對話意圖類型包括通知類和需求類;
構(gòu)建單元,用于構(gòu)建問句模板,所述問句模板包括首問句模板和再問句模板,所述首問句模板包含多輪對話進(jìn)行的必要信息,所述再問句在多輪對話首輪后的任意一輪問句生成時被調(diào)用;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于大連東軟教育科技集團(tuán)有限公司,未經(jīng)大連東軟教育科技集團(tuán)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011147186.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





