[發(fā)明專利]一種基于結(jié)構(gòu)化三元組和錨定模板的文本生成方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202110502216.8 | 申請(qǐng)日: | 2021-05-08 |
| 公開(公告)號(hào): | CN113065324A | 公開(公告)日: | 2021-07-02 |
| 發(fā)明(設(shè)計(jì))人: | 鄭海濤;李自然;林子博;肖喜;江勇;夏樹濤 | 申請(qǐng)(專利權(quán))人: | 清華大學(xué)深圳國(guó)際研究生院 |
| 主分類號(hào): | G06F40/186 | 分類號(hào): | G06F40/186;G06F40/242;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 深圳新創(chuàng)友知識(shí)產(chǎn)權(quán)代理有限公司 44223 | 代理人: | 江耀純 |
| 地址: | 518055 廣東省深圳市*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 結(jié)構(gòu) 三元 錨定 模板 文本 生成 方法 裝置 | ||
本發(fā)明公開了一種基于結(jié)構(gòu)化三元組和錨定模板的文本生成方法及裝置,本發(fā)明設(shè)計(jì)了基于錨定模板的三元組到文本生成框架,根據(jù)輸入的三元組集合從語(yǔ)料中檢索相似的三元組及其描述文本作為模板(分別稱為模板三元組和模板描述),指導(dǎo)當(dāng)前描述文本的生成。模型可以從模板提供的具體寫作范例中,學(xué)習(xí)如何忠實(shí)且自然地描述給定三元組集合中編碼的信息。然而,隨著輸入三元組數(shù)量的增多,對(duì)應(yīng)檢索得到的模板也會(huì)隨之變得復(fù)雜和冗長(zhǎng),導(dǎo)致模型無(wú)法精準(zhǔn)地從模板中學(xué)習(xí)寫作指導(dǎo),最終選擇忽視復(fù)雜的模板。因此,本發(fā)明進(jìn)一步對(duì)輸入進(jìn)行規(guī)劃,將輸入三元組以句子為單位進(jìn)行分組,從而與模板更好地匹配,幫助模型更精準(zhǔn)地利用模板。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)應(yīng)用、計(jì)算機(jī)系統(tǒng)及其技術(shù)產(chǎn)品技術(shù)領(lǐng)域,尤其涉及一種基于結(jié)構(gòu)化三元組和錨定模板的文本生成方法及裝置。
背景技術(shù)
知識(shí)圖譜是由概念、實(shí)體、實(shí)體關(guān)系和實(shí)體屬性等事實(shí)性知識(shí)構(gòu)建而成的結(jié)構(gòu)化語(yǔ)義網(wǎng)絡(luò),可以為包括問答系統(tǒng)、推薦系統(tǒng)、搜索引擎、電商平臺(tái)和摘要工具等多種智能應(yīng)用提供全面豐富的知識(shí)補(bǔ)充和數(shù)據(jù)支持。知識(shí)圖譜中的知識(shí)通常由RDF(資源描述框架)三元組集合表示,每個(gè)RDF三元組的具體形式為主語(yǔ),謂語(yǔ),賓語(yǔ),即通過謂語(yǔ)來(lái)描述主語(yǔ)實(shí)體和賓語(yǔ)實(shí)體之間的語(yǔ)義關(guān)系。這種以三元組表示知識(shí)的形式雖然便于計(jì)算機(jī)解析,但對(duì)于人類用戶卻是不友好的。
基于結(jié)構(gòu)化三元組集合自動(dòng)生成對(duì)應(yīng)的描述文本(三元組到文本生成)可以幫助人類用戶更好地理解存儲(chǔ)在結(jié)構(gòu)化三元中的知識(shí),進(jìn)而輔助智能應(yīng)用更好地向用戶展示個(gè)性化內(nèi)容,提升用戶交互。比如應(yīng)用在問答系統(tǒng)和電商平臺(tái)中,根據(jù)系統(tǒng)從知識(shí)庫(kù)中檢索、推薦返回的結(jié)構(gòu)化數(shù)據(jù),自動(dòng)生成相應(yīng)的展示文本(問題回答、商品說(shuō)明、推薦理由等)。
傳統(tǒng)的三元組到文本生成方法主要基于大量的手工特征和模板,根據(jù)預(yù)定義規(guī)則的匹配將三元組中的信息填入模板中完成文本的生成。近年來(lái),基于深度神經(jīng)網(wǎng)絡(luò)的自然語(yǔ)言生成技術(shù)得到了顯著的發(fā)展,許多方法使用序列到序列(sequence2sequence)模型對(duì)三元組到文本生成建模,可以在不依賴手工特征和規(guī)則的情況下自動(dòng)地完成目標(biāo)文本寫作。然而,由于結(jié)構(gòu)化輸入(三元組集合)和非結(jié)構(gòu)化輸出(文本)之間巨大的結(jié)構(gòu)化差異,只是基于給定的三元組集合不足以生成具體的和有表現(xiàn)力的文本,導(dǎo)致現(xiàn)有方法傾向于生成通用描述和邏輯不連貫的語(yǔ)句。
發(fā)明內(nèi)容
本發(fā)明目的就是為了彌補(bǔ)已有技術(shù)生成通用描述和邏輯不連貫的語(yǔ)句的缺陷,提供一種基于結(jié)構(gòu)化三元組和錨定模板的文本生成方法及裝置。
本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的:
一種基于結(jié)構(gòu)化三元組和錨定模板的文本生成方法,具體步驟如下:
S1、由輸入的三元組集合x和對(duì)應(yīng)的描述文本y構(gòu)成數(shù)據(jù)對(duì)(x,y),為每個(gè)數(shù)據(jù)從訓(xùn)練語(yǔ)料中檢索多個(gè)相似的數(shù)據(jù)對(duì)(x′,y′)作為模板,其中x′為模板三元組,y′為模板描述,并過濾掉與數(shù)據(jù)對(duì)(x,y)過于相似和過于不同的模板;
S2、將輸入的三元組集合x編碼成高維向量z;
S3、從步驟S1中得到的過濾后的模板(x′,y′)中提取出模板向量g;
S4、將步驟S2中編碼后的高維向量z以句子為單位進(jìn)行分組,并使用分組后的結(jié)果和步驟S3中得到的模板向量g控制信息從模板向量流入解碼器,完成描述文本的解碼。
所述的步驟S1中使用Lucene工具對(duì)訓(xùn)練語(yǔ)料中的所有描述文本構(gòu)建檢索索引。
步驟S1中,對(duì)于每一個(gè)數(shù)據(jù)對(duì)(x,y),從檢索索引中檢索出最相似的20個(gè)描述文本及其三元組集合(x′,y′)作為模板,并計(jì)算描述文本y和模板描述y′的Jaccard相似度,保留Jaccard相似度在0.25和0.75之間的模板。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué)深圳國(guó)際研究生院,未經(jīng)清華大學(xué)深圳國(guó)際研究生院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110502216.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 卡片結(jié)構(gòu)、插座結(jié)構(gòu)及其組合結(jié)構(gòu)
- 鋼結(jié)構(gòu)平臺(tái)結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 單元結(jié)構(gòu)、結(jié)構(gòu)部件和夾層結(jié)構(gòu)
- 鋼結(jié)構(gòu)扶梯結(jié)構(gòu)
- 鋼結(jié)構(gòu)隔墻結(jié)構(gòu)
- 鋼結(jié)構(gòu)連接結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)





