[發(fā)明專利]基于Transformer模型的對話生成方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202110546978.8 | 申請日: | 2021-05-19 |
| 公開(公告)號: | CN113360610A | 公開(公告)日: | 2021-09-07 |
| 發(fā)明(設計)人: | 魯燃;王元英;徐富永;劉培玉;朱振方 | 申請(專利權(quán))人: | 山東師范大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/35;G06F40/126;G06F40/216;G06N3/04;G06N3/08 |
| 代理公司: | 濟南圣達知識產(chǎn)權(quán)代理有限公司 37221 | 代理人: | 閆圣娟 |
| 地址: | 250014 山*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 transformer 模型 對話 生成 方法 系統(tǒng) | ||
本公開提供了一種基于Transformer模型的對話生成方法及系統(tǒng),所述方案基于Transformer模型,在編碼器端對角色信息和對話歷史信息進行多頭注意力編碼和全連接層處理;在解碼器端提出了一種注意力路由機制在解碼器中動態(tài)權(quán)衡對話歷史信息、角色信息和目標回復之間的關(guān)系,緩解了回復個性化特征不足的問題,在一定程度上提高了回復的個性化程度。
技術(shù)領(lǐng)域
本公開屬于自然語言處理和個性化對話生成技術(shù)領(lǐng)域,尤其涉及一種基于Transformer模型的對話生成方法及系統(tǒng)。
背景技術(shù)
本部分的陳述僅僅是提供了與本公開相關(guān)的背景技術(shù)信息,不必然構(gòu)成在先技術(shù)。
對話系統(tǒng)由于其廣泛的應用場景,對話系統(tǒng)一直是自然語言處理領(lǐng)域的一大研究熱點。現(xiàn)有對話生成的方法分為基于檢索方式的對話生成和基于生成方式的對話生成。基于檢索方式的對話生成方法優(yōu)點是生成的回復準確率高,原因是回復源于真實對話語料庫;缺點是回復的質(zhì)量取決于對話語料庫的質(zhì)量,不適合用于開放領(lǐng)域?qū)υ挘换谏煞绞降膶υ捝煞椒▋?yōu)點是可以在給定的對話語境下生成多樣性高的回復,缺點是回復多為不確定的信息或通用的信息。
基于深度學習技術(shù)實現(xiàn)的對話生成方法通常需要借助大規(guī)模的語料數(shù)據(jù),研究人員提出了基于RNN的方法讓模型從數(shù)據(jù)中自動學習特征的表示。Seq2Seq模型又稱為編碼器-解碼器模型,在文本摘要、機器翻譯、句法分析方面都有比較成熟的應用。Seq2Seq模型雖然在短對話上具有良好的效果,但是由于其在預測過程中采用最大似然估計,使得其在對話多樣性的表現(xiàn)效果不佳,使模型傾向于產(chǎn)生語法上合理而通用的回復,針對這個缺陷,研究人員將用戶的信息轉(zhuǎn)化為一個密集向量加入到對話生成中,并提出了最大化互信息模型,用MMI來替代最大似然函數(shù)作為新的目標函數(shù),從而挖掘信息與回復之間更深層次的關(guān)系,有效降低回復中無意義回復的概率,使生成的回復更加多樣化、有趣。研究人員對幾種神經(jīng)會話模型進行了仔細的探討和對比,并對可能顯著影響預測性能的多種因素進行了評估,在此基礎上提出了一種基于神經(jīng)網(wǎng)絡方法的對話生成模型,它以人物信息和上下文的對話語境信息為前提,在檢索和生成指標上都優(yōu)于以前的模型。然而,這兩種模型嚴重依賴于帶有標記的對話數(shù)據(jù),這種數(shù)據(jù)更加昂貴,且更為稀疏。
為了使回復呈現(xiàn)出一致的個性,研究人員預先指定了對話人的角色信息,定義了幾個鍵值對,包含姓名、性別、年齡、位置等,這樣能夠讓機器人在回答時能夠有一定的身份特征,和其他方式的區(qū)別是不用從對話中慢慢學習個性,提高了生成的回復和預先指定的人物信息的一致性,且模型在一定程度上使回復更加自然、連貫和多樣化。隨著閑聊機器人的發(fā)展,研究人員在該領(lǐng)域提出了一個persona-chat數(shù)據(jù)集,基于該數(shù)據(jù)集提出了兩種生成式的模型,persona-Seq2Seq模型和Generative Profile Memory Network模型,personaa-Seq2Seq模型是基于用戶的角色信息,采用序列到序列的方式對系統(tǒng)回復進行預測;Generative Profile Memory Network模型在Seq2Seq模型的基礎上,將角色信息加入到解碼器端,從而將角色信息融入到生成的回復中。
發(fā)明人發(fā)現(xiàn),在開放域?qū)υ捪到y(tǒng)的語境中,除了產(chǎn)生簡短乏味的響應外,回復沒有融入外部的知識和事實,導致產(chǎn)生的回復不準確,信息不豐富,不夠吸引人;另一方面,大規(guī)模對話生成仍然存在產(chǎn)生乏味和通用響應的問題,傳統(tǒng)的方法是通過將用戶的角色信息全部融入對話歷史中,然而在一些語境下,系統(tǒng)產(chǎn)生的回復不需要表現(xiàn)出用戶的角色信息,回復需要在充分結(jié)合對話歷史信息的基礎上適當?shù)厝诤辖巧畔ⅰ?/p>
發(fā)明內(nèi)容
本公開為了解決上述問題,提供了基于Transformer模型的對話生成方法及系統(tǒng),所述方案通過將歷史對話的信息和角色信息輸入到對話生成網(wǎng)絡中去,由提出的注意力路由機制在解碼器中通過動態(tài)權(quán)衡人物角色特征來預測生成的回復,有效提高了回復的個性化程度。
根據(jù)本公開實施例的第一個方面,提供了一種基于Transformer模型的對話生成方法,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東師范大學,未經(jīng)山東師范大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110546978.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于Transformer+LSTM神經(jīng)網(wǎng)絡模型的商品銷量預測方法及裝置
- 一種基于Transformer模型自然場景文字識別方法
- 一種深度Transformer級聯(lián)神經(jīng)網(wǎng)絡模型壓縮算法
- 點云分割方法、系統(tǒng)、介質(zhì)、計算機設備、終端及應用
- 基于Transformer的中文智能對話方法
- 一種基于改進Transformer模型的飛行器故障診斷方法和系統(tǒng)
- 一種基于Transformer模型的機器翻譯模型優(yōu)化方法
- 基于Transformer和增強交互型MPNN神經(jīng)網(wǎng)絡的小分子表示學習方法
- 基于U-Transformer多層次特征重構(gòu)的異常檢測方法及系統(tǒng)
- 基于EfficientDet和Transformer的航空圖像中的飛機檢測方法





