[發明專利]一種基于范例學習的文本摘要生成框架及方法在審
| 申請號: | 202110885791.0 | 申請日: | 2021-08-03 |
| 公開(公告)號: | CN113673241A | 公開(公告)日: | 2021-11-19 |
| 發明(設計)人: | 邱錫鵬;安晨鑫;鐘鳴;耿志超;楊非;俞再亮 | 申請(專利權)人: | 之江實驗室;復旦大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/211;G06N3/04;G06N3/08 |
| 代理公司: | 杭州浙科專利事務所(普通合伙) 33213 | 代理人: | 楊小凡 |
| 地址: | 310023 浙江省杭州市余*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 范例 學習 文本 摘要 生成 框架 方法 | ||
本發明公開了一種基于范例學習的文本摘要生成框架及方法,允許在摘要生成的過程中參考一些寫作范例,框架包括檢索和生成兩個階段,檢索階段,給定一個文本,使用對比學習去數據庫中檢索一些范例,假定越好的摘要在語義空間應該和原文離得更近,檢索器的模型使用了孿生網絡的結構;生成階段,提出了一種結合范例進行摘要生成的方法,可以方便的加在目前所有主流的條件生成模型上,為了更好的學習范例,將待生成的摘要和范例摘要按照句子對齊;通過訓練好的模型進行預測,即解碼階段,使用集束搜索算法并鼓勵那些和范例更相似的束。
技術領域
本發明涉及深度學習和自然語言處理,尤其是涉及一種基于范例學習的文本摘要生成框 架及方法。
背景技術
自動文本摘要(Automatic Text Summarization)任務是自然語言處理(NLP)中的一類基 礎任務,自動文本摘要旨在將文本或文本集合轉換為包含關鍵信息的簡短摘要。按照輸出類 型可分為抽取式摘要(Extractive Summarization)和生成式摘要(Abstractive)。抽取式摘要從 源文檔中抽取關鍵句和關鍵詞組成摘要,摘要全部來源于原文。生成式摘要根據原文,允許 生成新的詞語、短語來組成摘要。
主流的抽取式摘要模型主要以句子為單位進行抽取,該方法的優點是事實一致性,缺點 是輸出離散的句子,不具備通順和流暢性,與人工寫的摘要相差甚遠。生成式摘要的主流框 架是序列到序列模型由一個編碼器和解碼器組成,編碼器用于編碼輸入的文檔,解碼器用于 生成摘要。生成方法最明顯的優點是語句連貫,缺點是可能會生成出一些無關或原文不相符 的信息。
目前自動摘要系統都是僅僅依賴于文檔本身,受人類寫摘要的影響,我們往往需要一些 寫好的范例,給予我們寫作風格和樣式上的指導。尤其對于一些正式的使用場景,如學術論 文、法案條文等,摘要的生成除了要提取文章的關鍵部分外,寫作風格也尤其重要。
發明內容
為解決現有技術的不足,實現提取文章關鍵部分作為摘要的同時,也能獲取文章寫作風 格的目的,本發明采用如下的技術方案:
一種基于范例學習的文本摘要生成方法,包括如下步驟:
S1,為待生成摘要的源文檔,檢索出一組用于參考的范例摘要;
S2,基于序列到序列框架,使用最大似然損失進行訓練,包括如下步驟:
S21,將源文檔和范例摘要合并成一個序列;源文檔和每個范例摘要的前后,分別設有[CLS] 和[SEP]標識符,用于標識源文檔、范例的開始與結束;
S22,通過極大似然估計,使用前t-1個標準摘要的真值詞來預測第t個詞,極大似然估 計訓練的損失函數:
其中P()表示第t步解碼在詞表上的概率分布,表示第t步解碼輸出的隱向量,W表 示詞表大小*隱向量維度的可學習矩陣,X表示源文檔,E表示范例摘要,yt表示摘要中的第 t個詞,y<t表示第t步解碼之前已經生成的詞,n表示句子長度;
S3,基于訓練好的序列到序列框架,預測摘要,包括如下步驟:
S31,將源文檔和范例摘要合并成一個序列;
S32,通過極大似然估計,使用前t-1個預測詞來預測第t個詞,得到對數似然得分:
對數似然得分越大越好,在訓練階段是要優化損失函數,這個值越小越好,因此有一個 負號;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于之江實驗室;復旦大學,未經之江實驗室;復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110885791.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種超疏水PTFE濾布及其制備方法
- 下一篇:一種液壓屬具快換機構





