[發明專利]基于兩階段解碼的對話生成方法及裝置、介質和計算設備在審
| 申請號: | 202110248798.1 | 申請日: | 2021-03-08 |
| 公開(公告)號: | CN112988967A | 公開(公告)日: | 2021-06-18 |
| 發明(設計)人: | 蔡毅;鐘志成;孔俊生 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/332;G06N3/04 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 鄭浦娟 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 階段 解碼 對話 生成 方法 裝置 介質 計算 設備 | ||
本發明公開了一種基于兩階段解碼的對話生成方法及裝置、介質和計算設備,方法將對話的回復生成過程分成兩個解碼階段,先向對話生成模型輸入對話上下文以將其映射為詞嵌入向量;然后將詞向量輸入到上下文自注意力編碼器中,得到對話上下文的特征向量,之后將該特征向量輸入到第一階段Transformer解碼器中,解碼生成一個實詞序列;再將實詞序列輸入到實詞序列編碼器中,得到實詞序列的特征向量;最后將上下文和實詞序列的特征向量一起輸入到第二階段Transformer解碼器中,解碼生成最終的回復。本發明通過兩階段的解碼過程,防止了頻率較高但缺乏語義信息的虛詞對實詞造成的干擾,從而提高回復的相關性和信息量。
技術領域
本發明涉及自然語言處理技術領域,尤其涉及一種基于兩階段解碼的對話生成方法及裝置、介質和計算設備。
背景技術
近幾年,隨著深度學習技術的發展以及大量的對話數據集的出現,使得可以利用深度學習技術構建面向開放領域的對話系統,大大擴展了對話系統的應用場景。
在開放領域的對話生成領域,目前主流的做法是基于端對端的生成框架:使用一個編碼器將對話上下文編碼成一個特征向量,然后基于前面生成的向量,使用一個解碼器,解碼生成對話回復。然而,基礎的端對端對話生成模型,會傾向于生成一般性的、缺乏信息量的回復。如“好的”,“不知道”等。近些年已有大量的針對該問題提出的解決方法,如:加入個性化信息、主題信息或外部知識信息,讓模型更好地理解上下文的語義等,然而這些方法,仍然只使用單一的解碼器,對實詞、虛詞不加區分地一次性生成整個對話回復。這樣一來,模型會傾向于生成語義信息較少但出現頻率較高的虛詞,而不是語義信息較多但出現頻率較低的實詞,仍然會致使模型會生成一般性的、缺乏信息量的回復。
發明內容
本發明的第一目的在于克服現有技術的不足,提供一種基于兩階段解碼的對話生成方法。本發明通過在第一階段的解碼中,先生成回復中需要的實詞序列,再基于生成的實詞序列和上下文的信息,在第二階段的解碼中生成最終的對話回復,有效避免了高頻虛詞對低頻實詞生成的影響,在保證回復流暢性的前提下,提高回復的相關性和信息量。
本發明的第二目的在于提供一種基于兩階段解碼的對話生成裝置。
本發明的第三目的在于提供一種計算機可讀存儲介質。
本發明的第四目的在于提供一種計算設備。
本發明的第一目的能夠通過以下技術方案實現:
一種基于兩階段解碼的對話生成方法,通過兩階段解碼的對話生成模型生成對話,模型包括兩個自注意力編碼器和兩個Transformer解碼器,所述方法包括步驟:
(1)在模型中輸入對話上下文的文本,將文本中的每一個單詞都映射為詞嵌入向量;
(2)以句子為單位,將詞嵌入向量輸入到上下文自注意力編碼器中,通過上下文自注意力編碼器提取出上下文的特征向量;
(3)將得到的上下文特征向量輸入到第一階段Transformer解碼器中,解碼生成一個實詞序列,該實詞序列表達的是最終回復中的主要語義信息;
(4)將得到的實詞序列輸入到實詞序列自注意力編碼器中,得到實詞序列的特征向量;
(5)將編碼得到的上下文和實詞序列的特征向量一起輸入到第二階段Transformer解碼器中,解碼生成最終的回復。
優選的,步驟(1)中,文本中第i個單詞映射得到的詞嵌入向量表示為:
其中,i代表單詞在文本中的位置;xi代表文本中第i個單詞;代表單詞xi所映射的初始的詞嵌入向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110248798.1/2.html,轉載請聲明來源鉆瓜專利網。





