[發(fā)明專利]一種基于用戶對話歷史的個(gè)性化對話生成方法和系統(tǒng)在審
| 申請?zhí)枺?/td> | 202011060186.1 | 申請日: | 2020-09-30 |
| 公開(公告)號: | CN112182161A | 公開(公告)日: | 2021-01-05 |
| 發(fā)明(設(shè)計(jì))人: | 竇志成;文繼榮 | 申請(專利權(quán))人: | 中國人民大學(xué) |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/332;G06F40/30;G06K9/62 |
| 代理公司: | 北京紀(jì)凱知識產(chǎn)權(quán)代理有限公司 11245 | 代理人: | 趙悅 |
| 地址: | 100872 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 用戶 對話 歷史 個(gè)性化 生成 方法 系統(tǒng) | ||
本發(fā)明涉及一種基于用戶對話歷史的個(gè)性化對話生成方法和系統(tǒng),包括以下步驟:S1將用戶對話歷史的文本表示為句子向量;S2通過對句子向量進(jìn)行編碼得到用戶個(gè)性向量,用戶個(gè)性向量中包含了句子向量的時(shí)序信息;S3根據(jù)用戶個(gè)性向量和句子向量的時(shí)序信息生成個(gè)性化對話模型;S4將新的輸入文本的詞向量輸入個(gè)性化對話模型生成個(gè)性化對話的回復(fù)。其使用對話歷史進(jìn)行用戶建模,通過用戶對話歷史回復(fù)計(jì)算得出用戶個(gè)性向量,而避免使用用戶ID獲取和更新個(gè)性向量,當(dāng)新用戶加入時(shí),即可直接將其對話歷史表示為個(gè)性向量。
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于用戶對話歷史的個(gè)性化對話生成方法和系統(tǒng),屬于人工智能技術(shù)領(lǐng)域。
背景技術(shù)
伴隨著由數(shù)據(jù)驅(qū)動(dòng)的端到端對話系統(tǒng)的發(fā)展,個(gè)性化對話系統(tǒng)開始出現(xiàn)。閑聊型個(gè)性化對話系統(tǒng),即是針對開放領(lǐng)域下輸入給出合適回復(fù)的同時(shí),輸出的結(jié)果能具有人的角色信息。在應(yīng)用中,無論是虛擬的社交機(jī)器人還是智能個(gè)人代理回復(fù),都要求對話模型給出的回復(fù)具備人物角色信息,因此需要賦予模型人物設(shè)定(本文中簡稱為人設(shè))來維持人物角色信息的統(tǒng)一。目前為個(gè)性化對話系統(tǒng)構(gòu)建人設(shè)的方法主要分為顯式人設(shè)和隱式人設(shè)兩種。顯式人設(shè)主要通過預(yù)先設(shè)定的屬性關(guān)鍵詞或句子描述等來作為模型個(gè)性化的人設(shè)信息,在模型輸出結(jié)果時(shí)利用這些顯式的文本信息來控制模型的生成或選擇過程。相對地,隱式人設(shè)則沒有任何顯式定義的文本來作為角色信息,模型通過用戶對話歷史為每個(gè)用戶構(gòu)建隱式的個(gè)性向量,以此作為用戶的人設(shè)加入到生成過程中,來維持輸出結(jié)果的人設(shè)一致性。
顯式人設(shè)的方法為了構(gòu)建大規(guī)模與人設(shè)相關(guān)的訓(xùn)練數(shù)據(jù),需要投入大量的人力資源,來模擬相關(guān)對話場景或者構(gòu)造規(guī)則。而且,由于顯式人設(shè)能夠預(yù)先給出人設(shè)信息有限,如PERSONA-CHAT數(shù)據(jù)集中,僅用5句話作為人設(shè)信息,因此面對設(shè)定之外的輸入,模型仍傾向于給出設(shè)定相關(guān)的回復(fù),而導(dǎo)致了回復(fù)質(zhì)量的降低。在實(shí)際應(yīng)用中,面對新的人物或者新的屬性設(shè)定均需要重復(fù)之前的步驟。因此,顯式人設(shè)的方法只適用于固定且小規(guī)模的場景范圍。對應(yīng)地,隱式人設(shè)的方法則自動(dòng)從對話歷史中學(xué)習(xí)用戶的角色信息,將用戶個(gè)性化的角色信息轉(zhuǎn)換為向量來表示用戶的人設(shè),通過隱式的個(gè)性向量來引導(dǎo)模型生成或選擇個(gè)性化的回復(fù)。因此,隱式人設(shè)的方法避免了為每個(gè)用戶配置人設(shè)的過程,可以在大規(guī)模的用戶群體上構(gòu)建用戶特有的個(gè)性化對話模型,面對同樣的輸入根據(jù)不同用戶的特點(diǎn)給出個(gè)性化回復(fù),可作為用戶的代理回復(fù)助手。隱式人設(shè)的方式雖然可以通過隱式的個(gè)性向量來學(xué)習(xí)用戶對話歷史中的人物性格和語言習(xí)慣等個(gè)性化特征。然而現(xiàn)有的研究工作大多從全局層面來構(gòu)建用戶個(gè)性向量,這樣不加區(qū)別地使用用戶歷史,最終得到的靜態(tài)個(gè)性向量包含了對話歷史中用戶所有的個(gè)性化特征,在面對不同的輸入時(shí),模型難以表達(dá)出用戶具體某個(gè)方面的個(gè)性特征。Li等人(Piji Li,Zihao Wang,Lidong Bing,and Wai Lam.Persona-aware tips generation?In The World Wide Web Conference,pages 1006-1016,2019.)利用用戶歷史為每個(gè)用戶構(gòu)建與個(gè)性化相關(guān)的關(guān)鍵詞,在關(guān)鍵詞生成的不同時(shí)刻,通過注意力機(jī)制將關(guān)鍵詞加權(quán)求得表示用戶個(gè)性的個(gè)性向量,而非通過模型訓(xùn)練得到用戶個(gè)性向量。這在一定程度上使得隱式人設(shè)從靜態(tài)的向量轉(zhuǎn)變?yōu)閯?dòng)態(tài)的向量,可以在生成的不同階段進(jìn)行調(diào)整,然而,個(gè)性化關(guān)鍵詞的方式生成的回復(fù)僅僅能夠具備角色顯著的屬性信息,不同角色對話時(shí)語言習(xí)慣等細(xì)微的個(gè)性化特征無法捕捉。另外,目前個(gè)性向量在訓(xùn)練時(shí)主要通過用戶ID來進(jìn)行獲取并通過反向傳播進(jìn)行更新,隨著用戶的增多,每個(gè)用戶歷史數(shù)量在整個(gè)數(shù)據(jù)集中的占比將會減小,用戶個(gè)性向量隨著模型更新緩慢,新用戶也無法加入已經(jīng)訓(xùn)練好的模型中,需要重新對模型進(jìn)行訓(xùn)練,在實(shí)際應(yīng)用中,難以對用戶新的歷史和新用戶做出及時(shí)的響應(yīng)。同時(shí),這樣的方式忽略了用戶對話歷史中的時(shí)序信息,用戶最新的角色信息在個(gè)性向量中無法得到強(qiáng)化。
發(fā)明內(nèi)容
針對上述問題,本發(fā)明的目的是提供一種基于用戶對話歷史的個(gè)性化對話生成方法和系統(tǒng),其使用對話歷史進(jìn)行用戶建模,通過用戶對話歷史回復(fù)計(jì)算得出用戶個(gè)性向量,而避免使用用戶ID獲取和更新個(gè)性向量,當(dāng)新用戶加入時(shí),即可直接將其對話歷史表示為個(gè)性向量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國人民大學(xué),未經(jīng)中國人民大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011060186.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 對話控制裝置、對話控制方法以及記錄介質(zhì)
- 任務(wù)對話系統(tǒng)中的對話處理方法及裝置
- 一種人機(jī)對話的方法、裝置和存儲介質(zhì)
- 對話(中)獎(jiǎng)勵(lì)評估和對話方法、介質(zhì)、裝置和計(jì)算設(shè)備
- 一種對話方法、裝置、服務(wù)器及存儲介質(zhì)
- 一種輔助英文對話的方法及系統(tǒng)
- 一種回復(fù)對話評分模型訓(xùn)練方法、對話回復(fù)方法及其裝置
- 一種多輪對話的問題定位方法及裝置
- 文本對話方法、裝置、電子設(shè)備及存儲介質(zhì)
- 對話型文本分類方法、系統(tǒng)、設(shè)備及存儲介質(zhì)





