[發(fā)明專(zhuān)利]一種基于結(jié)構(gòu)化三元組和錨定模板的文本生成方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202110502216.8 | 申請(qǐng)日: | 2021-05-08 |
| 公開(kāi)(公告)號(hào): | CN113065324A | 公開(kāi)(公告)日: | 2021-07-02 |
| 發(fā)明(設(shè)計(jì))人: | 鄭海濤;李自然;林子博;肖喜;江勇;夏樹(shù)濤 | 申請(qǐng)(專(zhuān)利權(quán))人: | 清華大學(xué)深圳國(guó)際研究生院 |
| 主分類(lèi)號(hào): | G06F40/186 | 分類(lèi)號(hào): | G06F40/186;G06F40/242;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 深圳新創(chuàng)友知識(shí)產(chǎn)權(quán)代理有限公司 44223 | 代理人: | 江耀純 |
| 地址: | 518055 廣東省深圳市*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 結(jié)構(gòu) 三元 錨定 模板 文本 生成 方法 裝置 | ||
1.一種基于結(jié)構(gòu)化三元組和錨定模板的文本生成方法,其特征在于:具體步驟如下:
S1、由輸入的三元組集合x(chóng)和對(duì)應(yīng)的描述文本y構(gòu)成數(shù)據(jù)對(duì)(x,y),為每個(gè)數(shù)據(jù)從訓(xùn)練語(yǔ)料中檢索多個(gè)相似的數(shù)據(jù)對(duì)(x′,y′)作為模板,其中x′為模板三元組,y′為模板描述,并過(guò)濾掉與數(shù)據(jù)對(duì)(x,y)過(guò)于相似和過(guò)于不同的模板;
S2、將輸入的三元組集合x(chóng)編碼成高維向量z;
S3、從步驟S1中得到的過(guò)濾后的模板(x′,y′)中提取出模板向量g;
S4、將步驟S2中編碼后的高維向量z以句子為單位進(jìn)行分組,并使用分組后的結(jié)果和步驟S3中得到的模板向量g控制信息從模板向量流入解碼器,完成描述文本的解碼。
2.根據(jù)權(quán)利要求1所述的一種基于結(jié)構(gòu)化三元組和錨定模板的文本生成方法,其特征在于:所述的步驟S1中使用Lucene工具對(duì)訓(xùn)練語(yǔ)料中的所有描述文本構(gòu)建檢索索引。
3.根據(jù)權(quán)利要求2所述的一種基于結(jié)構(gòu)化三元組和錨定模板的文本生成方法,其特征在于:步驟S1中,對(duì)于每一個(gè)數(shù)據(jù)對(duì)(x,y),從檢索索引中檢索出最相似的20個(gè)描述文本及其三元組集合(x′,y′)作為模板,并計(jì)算描述文本y和模板描述y′的Jaccard相似度,保留Jaccard相似度在0.25和0.75之間的模板。
4.根據(jù)權(quán)利要求1所述的一種基于結(jié)構(gòu)化三元組和錨定模板的文本生成方法,其特征在于:步驟S2所述的將輸入的三元組集合x(chóng)編碼成高維向量z,具體過(guò)程如下:將三元組集合x(chóng)按字符展平成序列,然后用詞向量編碼得到字符向量輸入的初步表示x由字符向量全局位置編碼p和局部位置編碼p′之和得到,其中局部位置編碼p′記錄每個(gè)字符在其對(duì)應(yīng)的三元組內(nèi)的位置,全局位置編碼p用于區(qū)分每個(gè)字符屬于第幾個(gè)三元組;將三元組集合中的實(shí)體類(lèi)別和關(guān)系編碼成高維向量xtype,最后將輸入初步表示和實(shí)體類(lèi)別表示xtype輸入到深度自注意力變換網(wǎng)絡(luò)編碼器中編碼得到輸入表示z。
5.根據(jù)權(quán)利要求1所述的一種基于結(jié)構(gòu)化三元組和錨定模板的文本生成方法,其特征在于:步驟S3所述的從過(guò)濾后的模板(x′,y′)中提取出模板向量g,具體過(guò)程如下:從模板(x′,y′)中抽取出插入詞集和刪除詞集來(lái)描述輸入的三元組集合,所述的插入詞集由屬于模板描述y′但不屬于模板三元組x′的詞構(gòu)成,所述刪除詞集由屬于模板三元組x′但不屬于輸入三元組x的詞構(gòu)成,將插入詞集和刪除詞集中的詞經(jīng)過(guò)詞向量編碼,使用輸入表示z通過(guò)注意力機(jī)制將插入詞集和刪除詞集融合成模板向量g。
6.根據(jù)權(quán)利要求1所述的一種基于結(jié)構(gòu)化三元組和錨定模板的文本生成方法,其特征在于:所述步驟S4具體內(nèi)容如下:通過(guò)擴(kuò)展記憶網(wǎng)絡(luò)實(shí)現(xiàn)三元組集合的分組;首先使用一個(gè)雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)he編碼輸入高維向量z;接著使用另一個(gè)LSTM解碼器hd來(lái)實(shí)現(xiàn)輸入子集的選擇,每一步對(duì)每個(gè)三元組計(jì)算該三元組屬于當(dāng)前分組的概率,直到解碼結(jié)束;最后在文本生成的Transformer解碼器的每一步解碼中,用分組解碼器hd與模板向量g計(jì)算門(mén)限概率,來(lái)控制有多少信息從模板向量g流入到最終的文本輸出中,完成最終描述文本的解碼。
7.一種基于結(jié)構(gòu)化三元組和錨定模板的文本生成裝置,其特征在于:包括存儲(chǔ)器和處理器,所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序可被處理器執(zhí)行以實(shí)現(xiàn)如權(quán)利要求1-6中任一項(xiàng)所述的方法。
8.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于:所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有程序指令,所述程序指令被計(jì)算機(jī)的處理器執(zhí)行時(shí)使所述處理器執(zhí)行根據(jù)權(quán)利要求1至6任一項(xiàng)所述的方法。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于清華大學(xué)深圳國(guó)際研究生院,未經(jīng)清華大學(xué)深圳國(guó)際研究生院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110502216.8/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 卡片結(jié)構(gòu)、插座結(jié)構(gòu)及其組合結(jié)構(gòu)
- 鋼結(jié)構(gòu)平臺(tái)結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 單元結(jié)構(gòu)、結(jié)構(gòu)部件和夾層結(jié)構(gòu)
- 鋼結(jié)構(gòu)扶梯結(jié)構(gòu)
- 鋼結(jié)構(gòu)隔墻結(jié)構(gòu)
- 鋼結(jié)構(gòu)連接結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)





