[發(fā)明專利]一種基于對抗性互信息的文本生成方法有效
| 申請?zhí)枺?/td> | 202010560164.5 | 申請日: | 2020-06-18 |
| 公開(公告)號: | CN111767701B | 公開(公告)日: | 2023-03-07 |
| 發(fā)明(設計)人: | 潘博遠;蔡登;金仲明 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F40/166 | 分類號: | G06F40/166;G06F40/237;G06F40/30 |
| 代理公司: | 杭州天勤知識產權代理有限公司 33224 | 代理人: | 彭劍 |
| 地址: | 310013 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 對抗性 互信 文本 生成 方法 | ||
1.一種基于對抗性互信息的文本生成方法,其特征在于,包括以下步驟:
(1)構造并預訓練前向模型Pf和后向模型Pb;所述的前向模型和后向模型均包括編碼器和解碼器,當輸入文本后,利用編碼器生成一個高維語義向量,然后利用解碼器將輸入文本和語義向量一起解碼為目標文本;
(2)構造訓練集數據集,數據集包含源文本和對應的原目標文本;
(3)訓練過程中,將訓練集的源文本S輸入前向模型Pf,生成目標文本T′,此過程優(yōu)化函數為Pf(T|S);以生成的目標文本T′作為后向模型Pb的輸入,生成偽源文本,此過程優(yōu)化函數為Pb(S|T′);以訓練集中的原目標文本T作為后向模型Pb的輸入,生成另一個偽源文本,此過程優(yōu)化函數為Pb(S|T);
(4)構建訓練的目標函數,目標函數為:
其中,為生成目標文本的期望;訓練目標為:最大化利用原目標文本生成源文本的概率Pb(S|T),利用源文本生成原目標文本的概率Pf(T|S),和能生成使得后向模型生成源文本的偽目標文本的概率Pf(T′|S);同時最小化利用偽目標文本生成源文本的概率Pb(S|T′);
(5)重復步驟(2)~(4),迭代訓練,直到目標函數收斂;
(6)訓練完畢,進行文本生成的應用,往前向模型Pf中輸入文本,生成與輸入文本對應的目標文本。
2.根據權利要求1所述的基于對抗性互信息的文本生成方法,其特征在于,步驟(1)中,所述的前向模型和后向模型采用兩種不同的序列生成模型,所述的序列生成模型為序列到序列模型和Transformer模型;對于序列到序列模型,編碼器和解碼器基于循環(huán)神經網絡或卷積神經網絡;對于Transformer模型,編碼器和解碼器基于多層自注意力機制和點積全連接網絡。
3.根據權利要求1所述的基于對抗性互信息的文本生成方法,其特征在于,步驟(1)中,所述的前向模型和后向模型的目標函數都是交叉熵損失函數,公式為
T′=arg max P(T|S)
式中,P(T|S)表示利用源文本生成原目標文本的概率。
4.根據權利要求1所述的基于對抗性互信息的文本生成方法,其特征在于,步驟(3)中,源文本S輸入前向模型時使用詞向量Glove進行詞嵌入。
5.根據權利要求1所述的基于對抗性互信息的文本生成方法,其特征在于,步驟(3)中,生成的目標文本T′輸入后向模型時使用詞向量Glove進行詞嵌入。
6.根據權利要求1所述的基于對抗性互信息的文本生成方法,其特征在于,步驟(3)中,原目標文本T輸入后向模型時使用詞向量Glove進行詞嵌入。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010560164.5/1.html,轉載請聲明來源鉆瓜專利網。





