[發明專利]文摘自動生成方法、裝置、電子設備及存儲介質在審
| 申請號: | 202010898531.2 | 申請日: | 2020-08-31 |
| 公開(公告)號: | CN112183083A | 公開(公告)日: | 2021-01-05 |
| 發明(設計)人: | 嵇望;王偉凱;郭心南;董悅;李舟揚;錢艷;安毫億;朱鵬飛;梁青 | 申請(專利權)人: | 杭州遠傳新業科技有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/295;G06F40/216;G06F40/242;G06F16/35;G06F40/126 |
| 代理公司: | 杭州創智卓英知識產權代理事務所(普通合伙) 33324 | 代理人: | 張超 |
| 地址: | 310051 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文摘 自動 生成 方法 裝置 電子設備 存儲 介質 | ||
本發明公開了一種文摘自動生成方法、裝置、電子設備和存儲介質,該方法將原始文本和原始文本中的命名實體分別基于兩個訓練好的嵌入向量模型計算得到各單字的第一字符向量和第二字符向量并通過拼接得到各單字的詞向量;通過訓練好的Transformer編解碼模型對各單字的詞向量編解碼處理得到多個生成詞的詞向量,可以增強多個生成詞的詞向量的特征表示能力,將每個生成詞分為第一類生成詞或第二類生成詞,對第一類生成詞和第二類生成詞分別采用訓練好的指針網絡和記憶網絡計算分別得到第一類輸出詞和第二類輸出詞,由多個第一類輸出詞和/或多個第二類輸出詞組成目標文摘,可以有效解決生僻的命名實體無法生成的問題。
技術領域
本發明涉及自然語言處理領域,尤其涉及一種文摘自動生成方法、裝置、電子設備及存儲介質。
背景技術
自動文摘指的是對于一段原始文本通過算法的方式自動生成能概括原始文本的短文本。目前自動文摘算法主要分為抽取式自動文摘和生成式自動文摘。抽取式自動文摘指的是以句子為單位去抽取原始文本中有概括能力的一句或多句句子作為文摘,但該方法難以適應多變的原始文本內容。生成式自動文摘通過挖掘更深層次的語義信息對原始文本的中心思想進行轉述、概括而生成文摘,文摘的內容不限于原始文本中的句子詞匯,可以是原始文本外更加精煉的詞匯以及語言的組織,可以應用與各種原始文本。
目前通常采用基于Seq2Seq+Attention機制的深度學習模型實現生成式自動文摘,難以解決原始文本中重要但比較生僻的人名、地名、時間或機構名等命名實體無法生成在文摘中的問題,并且Seq2Seq單元一般采用LSTM、GRU等輕量級模型對原始文本進行編碼,對開放領域的原始文本來說其編碼本身的表達能力不夠。在文摘自動生成中存在難以自動生成生僻的、具有重要意義的命名實體問題,目前尚未提出有效的解決方案。
發明內容
為了克服現有技術的不足,本發明的目的之一在于提供一種文摘自動生成方法,其通過訓練好的Transformer編解碼模型對各單字的詞向量進行編解碼處理得到多個生成詞的詞向量,可以增強多個生成詞的詞向量的特征表示能力,將每個生成詞分為第一類生成詞或第二類生成詞,對第一類生成詞采用訓練好的指針網絡計算得到第一類輸出詞,對第二類生成詞采用訓練好的記憶網絡計算得到第二類輸出詞,可以有效解決生僻的命名實體無法生成的問題,提高文摘的準確性。
本發明的目的之一采用以下技術方案實現:
根據原始文本和所述原始文本中的命名實體分別基于兩個訓練好的嵌入向量模型進行計算分別得到所述原始文本中各單字的第一字符向量和所述命名實體中各單字的第二字符向量,并將各單字的第一字符向量和第二字符向量進行拼接得到各所述單字的詞向量;
根據各所述單字的詞向量基于訓練好的Transformer編解碼模型進行編解碼處理得到多個生成詞的詞向量;
基于多個所述生成詞的詞向量和訓練好的分類模型將多個生成詞分別分為第一類生成詞或第二類生成詞;
將多個所述第一類輸出詞和/或多個所述第二類輸出詞組成目標文摘,其中,所述第一類輸出詞是根據第一類生成詞的詞向量基于所述訓練好的指針網絡計算得到的,所述第二類輸出詞是根據第二類生成詞的詞向量和命名實體中各單字的詞向量基于所述訓練好的記憶網絡計算得到的。
進一步地,根據原始文本和所述原始文本中的命名實體分別基于兩個訓練好的嵌入向量模型進行計算分別得到所述原始文本中各單字的第一字符向量和所述命名實體中各單字的第二字符向量之前,還包括:
獲取原始文本;
根據所述原始文本基于Stanford NLP工具進行識別得到所述原始文本中的命名實體。
進一步地,所述訓練好的Transformer編解碼模型包括位置編碼層、編碼器和解碼器,根據各所述單字的詞向量基于訓練好的Transformer編解碼模型進行編解碼處理得到多個生成詞的詞向量,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州遠傳新業科技有限公司,未經杭州遠傳新業科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010898531.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:農產品禁產區劃分方法及系統、電子設備及介質
- 下一篇:一種自動收線式墨盒





