[發(fā)明專(zhuān)利]生成文本摘要的方法和裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202010182475.2 | 申請(qǐng)日: | 2020-03-16 |
| 公開(kāi)(公告)號(hào): | CN113407707A | 公開(kāi)(公告)日: | 2021-09-17 |
| 發(fā)明(設(shè)計(jì))人: | 李浩然;徐松;袁鵬 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京沃東天駿信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司 |
| 主分類(lèi)號(hào): | G06F16/34 | 分類(lèi)號(hào): | G06F16/34;G06F40/284 |
| 代理公司: | 中原信達(dá)知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11219 | 代理人: | 李陽(yáng);郭晗 |
| 地址: | 100176 北京市北京經(jīng)濟(jì)技術(shù)*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 生成 文本 摘要 方法 裝置 | ||
本發(fā)明公開(kāi)了一種生成文本摘要的方法和裝置,涉及計(jì)算機(jī)技術(shù)領(lǐng)域。該方法的一具體實(shí)施方式包括:對(duì)待生成摘要的文本數(shù)據(jù)進(jìn)行編碼以得到隱層序列;根據(jù)預(yù)設(shè)要素詞典和基于要素的覆蓋度機(jī)制對(duì)隱層序列進(jìn)行解碼以生成文本摘要。該實(shí)施方式避免了對(duì)同一要素施加重復(fù)的注意力,進(jìn)而減少摘要中對(duì)同一個(gè)要素的重復(fù)描述,降低了生成的摘要的冗余度,使得生成的文本摘要更為精簡(jiǎn),準(zhǔn)確,可以涵蓋更多的信息。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種生成文本摘要的方法和裝置。
背景技術(shù)
文本摘要自動(dòng)生成是基于自然語(yǔ)言生成技術(shù),根據(jù)詳細(xì)的文本描述,自動(dòng)生成短摘要的技術(shù)。通常,文本摘要自動(dòng)生成模型包括一個(gè)編碼器和一個(gè)解碼器。輸入一段文本的詳細(xì)描述,編碼器將其編碼,生成一個(gè)隱層序列;解碼器利用該隱層序列,通過(guò)注意力機(jī)制,逐詞生成目標(biāo)摘要。
為了滿(mǎn)足摘要的精簡(jiǎn)度,需要對(duì)摘要的冗余度進(jìn)行控制,減少重復(fù)內(nèi)容的生成,從而以較短的文本摘要描述更多的信息。通常的做法是利用覆蓋度機(jī)制,減少解碼器對(duì)源端詞匯施加重復(fù)的注意力,進(jìn)而減少重復(fù)詞的生成。
在實(shí)現(xiàn)本發(fā)明過(guò)程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問(wèn)題:
現(xiàn)有的覆蓋度機(jī)制是基于詞的,即減少重復(fù)詞的生成。而實(shí)際上,一些不同的詞可能會(huì)表達(dá)同樣的語(yǔ)義,例如“靜音”和“低噪”這兩個(gè)詞表達(dá)的語(yǔ)義即相同。當(dāng)解碼器生成了“靜音”時(shí),基于詞的覆蓋度機(jī)制會(huì)阻止“靜音”的重復(fù)生成,但是不會(huì)阻止“低噪”的重復(fù)生成,導(dǎo)致解碼器可能會(huì)生成“低噪”,使得“靜音”和“低噪”同時(shí)出現(xiàn)在生成的摘要中,造成了信息的冗余。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實(shí)施例提供一種生成文本摘要的方法和裝置,能夠避免對(duì)同一要素施加重復(fù)的注意力,進(jìn)而減少摘要中對(duì)同一個(gè)要素的重復(fù)描述,降低了生成的摘要的冗余度,使得生成的文本摘要更為精簡(jiǎn),準(zhǔn)確,可以涵蓋更多的信息。
為實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種生成文本摘要的方法。
一種生成文本摘要的方法,包括:對(duì)待生成摘要的文本數(shù)據(jù)進(jìn)行編碼以得到隱層序列;根據(jù)預(yù)設(shè)要素詞典和基于要素的覆蓋度機(jī)制對(duì)所述隱層序列進(jìn)行解碼以生成文本摘要。
可選地,所述要素詞典通過(guò)以下方式構(gòu)建:根據(jù)文本數(shù)據(jù)的內(nèi)容特點(diǎn)對(duì)文本數(shù)據(jù)進(jìn)行分類(lèi);通過(guò)對(duì)每一類(lèi)文本數(shù)據(jù)進(jìn)行標(biāo)注和學(xué)習(xí)以構(gòu)建文本數(shù)據(jù)對(duì)應(yīng)的要素詞典。
可選地,所述要素詞典通過(guò)以下方式構(gòu)建:根據(jù)物品的類(lèi)別對(duì)文本數(shù)據(jù)進(jìn)行分類(lèi);通過(guò)對(duì)每一類(lèi)文本數(shù)據(jù)進(jìn)行標(biāo)注和學(xué)習(xí)以構(gòu)建文本數(shù)據(jù)對(duì)應(yīng)的要素詞典。
可選地,根據(jù)預(yù)設(shè)要素詞典和基于要素的覆蓋度機(jī)制對(duì)所述隱層序列進(jìn)行解碼以生成文本摘要包括:根據(jù)預(yù)設(shè)要素詞典對(duì)所述隱層序列進(jìn)行解碼以得到要素集合;根據(jù)所述要素集合和基于要素的覆蓋度機(jī)制,記錄對(duì)所述要素集合中每個(gè)要素的注意力歷史,并在損失函數(shù)中對(duì)重復(fù)的要素的注意力進(jìn)行懲罰以生成文本摘要。
可選地,根據(jù)預(yù)設(shè)要素詞典對(duì)所述隱層序列進(jìn)行解碼以得到要素集合包括:以預(yù)設(shè)要素詞典中的要素為基本單位,對(duì)所述隱層序列進(jìn)行解碼,以逐個(gè)要素地生成要素集合。
可選地,所述基于要素的覆蓋度機(jī)制包括如下公式:
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京沃東天駿信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司,未經(jīng)北京沃東天駿信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010182475.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





