[發(fā)明專利]摘要生成方法、裝置及計算機(jī)設(shè)備有效
| 申請?zhí)枺?/td> | 201710481703.4 | 申請日: | 2017-06-22 |
| 公開(公告)號: | CN108280112B | 公開(公告)日: | 2021-05-28 |
| 發(fā)明(設(shè)計)人: | 孔行 | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F40/30 |
| 代理公司: | 北京三高永信知識產(chǎn)權(quán)代理有限責(zé)任公司 11138 | 代理人: | 朱雅男 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 摘要 生成 方法 裝置 計算機(jī) 設(shè)備 | ||
本發(fā)明公開了一種摘要生成方法、裝置及計算機(jī)設(shè)備,屬于自然語言處理領(lǐng)域。所述方法包括:獲取文檔D,所述文檔D包括至少一個句子;通過抽取式模型從所述文檔D中抽取出m個候選句子;通過生成式模型根據(jù)所述m個候選句子輸出目標(biāo)詞語,根據(jù)所述目標(biāo)詞語生成摘要。本發(fā)明先通過抽取式模型抽取適合作為摘要的m個候選句子,從而減少生成式模型所需要處理的文本序列長度,再通過生成式模型根據(jù)m個候選句子生成或提取出目標(biāo)詞語,根據(jù)目標(biāo)詞語合成文檔的摘要,提高了最終生成的摘要的可讀性和信息量。
技術(shù)領(lǐng)域
本申請實施例涉及自然語言處理領(lǐng)域,特別涉及一種摘要生成方法、裝置及計算機(jī)設(shè)備。
背景技術(shù)
自動文本摘要(Automatic Text Summarization)用于將一篇文檔進(jìn)行提煉,生成簡潔、流暢且包含文章主旨的摘要。自動文本摘要是自然語言處理領(lǐng)域的一大難題。
相關(guān)技術(shù)中提供了一種基于生成式(Abstractive)模型的自動文本摘要技術(shù),該生成式模型用于從一篇文檔中的每個句子中提取出詞語,然后將提取出的詞語重新組合為一個個句子,從而形成摘要。
但是在文檔的文本序列長度較長時,生成式模型所提取出的詞語難以控制,導(dǎo)致最終生成的摘要并不符合預(yù)期結(jié)果,也即最終生成的摘要的可讀性和信息量均較差。
發(fā)明內(nèi)容
為了解決在文檔的文本序列長度較長時,生成式模型最終生成的摘要的可讀性和信息量均較差的問題,本發(fā)明實施例提供了一種摘要生成方法、裝置及計算機(jī)設(shè)備。所述技術(shù)方案如下:
第一方面,提供了一種摘要生成方法,所述方法包括:
獲取文檔D,所述文檔D包括至少一個句子;
通過抽取式模型從所述文檔D中抽取出m個候選句子;
通過生成式模型根據(jù)所述m個候選句子輸出目標(biāo)詞語,根據(jù)所述目標(biāo)詞語生成摘要。
在一個可選的實施例中,所述通過抽取式模型從所述文檔D中抽取出m個候選句子,包括:
計算所述文檔D中每個句子的句子級編碼向量;
根據(jù)所述每個句子的句子級編碼向量計算所述文檔D的文檔級編碼向量;
根據(jù)所述句子級編碼向量和所述文檔級編碼向量計算所述文檔中的每個句子的概率P,將所述文檔D中所述概率P大于預(yù)設(shè)閾值的句子抽取為所述m個候選句子。
在一個可選的實施例中,所述抽取式模型包括:第一雙向循環(huán)神經(jīng)網(wǎng)絡(luò);
所述計算所述文檔D中每個句子的句子級編碼向量,包括:
將所述句子中的詞語沿前向傳播方向輸入所述第一雙向循環(huán)神經(jīng)網(wǎng)絡(luò),得到第一前向編碼向量;
將所述句子中的詞語沿后向傳播方向輸入所述第一雙向循環(huán)神經(jīng)網(wǎng)絡(luò),得到第一后向編碼向量;
根據(jù)所述第一前向編碼向量和所述第一后向編碼向量,得到所述句子的句子級編碼向量。
在一個可選的實施例中,所述抽取式模型包括:第二雙向循環(huán)神經(jīng)網(wǎng)絡(luò);
所述根據(jù)所述每個句子的句子級編碼向量計算所述文檔的文檔級編碼向量,包括:
將所述n個句子的句子級編碼向量沿前向傳播方向輸入所述第二雙向循環(huán)神經(jīng)網(wǎng)絡(luò),得到第二前向編碼向量;
將所述n個句子的句子級編碼向量沿后向傳播方向輸入所述第二雙向循環(huán)神經(jīng)網(wǎng)絡(luò),得到第二后向編碼向量;
根據(jù)所述第二前向編碼向量和所述第二后向編碼向量,得到所述文檔D的文檔級編碼向量。
在一個可選的實施例中,所述抽取式模型包括基于注意力機(jī)制的模型;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710481703.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





