[發明專利]文摘自動生成方法、裝置、電子設備及存儲介質在審
| 申請號: | 202010898531.2 | 申請日: | 2020-08-31 |
| 公開(公告)號: | CN112183083A | 公開(公告)日: | 2021-01-05 |
| 發明(設計)人: | 嵇望;王偉凱;郭心南;董悅;李舟揚;錢艷;安毫億;朱鵬飛;梁青 | 申請(專利權)人: | 杭州遠傳新業科技有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/295;G06F40/216;G06F40/242;G06F16/35;G06F40/126 |
| 代理公司: | 杭州創智卓英知識產權代理事務所(普通合伙) 33324 | 代理人: | 張超 |
| 地址: | 310051 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文摘 自動 生成 方法 裝置 電子設備 存儲 介質 | ||
1.一種文摘自動生成方法,其特征在于:包括以下步驟:
根據原始文本和所述原始文本中的命名實體分別基于兩個訓練好的嵌入向量模型進行計算分別得到所述原始文本中各單字的第一字符向量和所述命名實體中各單字的第二字符向量,并將各單字的第一字符向量和第二字符向量進行拼接得到各所述單字的詞向量;
根據各所述單字的詞向量基于訓練好的Transformer編解碼模型進行編解碼處理得到多個生成詞的詞向量;
基于多個所述生成詞的詞向量和訓練好的分類模型將多個生成詞分別分為第一類生成詞或第二類生成詞;
將多個第一類輸出詞和/或多個第二類輸出詞組成目標文摘,其中,第一類輸出詞是根據第一類生成詞的詞向量基于訓練好的指針網絡計算得到的,第二類輸出詞是根據第二類生成詞的詞向量和命名實體中各單字的詞向量基于訓練好的記憶網絡計算得到的。
2.如權利要求1所述的文摘自動生成方法,其特征在于:根據原始文本和所述原始文本中的命名實體分別基于兩個訓練好的嵌入向量模型進行計算分別得到所述原始文本中各單字的第一字符向量和所述命名實體中各單字的第二字符向量之前,還包括:
獲取原始文本;
根據所述原始文本基于Stanford NLP工具進行識別得到所述原始文本中的命名實體。
3.如權利要求1所述的文摘自動生成方法,其特征在于:所述訓練好的Transformer編解碼模型包括位置編碼層、編碼器和解碼器,根據各所述單字的詞向量基于訓練好的Transformer編解碼模型進行編解碼處理得到多個生成詞的詞向量,包括:
將各所述單字的詞向量輸入所述位置編碼層進行位置編碼得到各所述單字的位置向量;
將各所述單字的詞向量和位置向量通過加法計算得到各所述單字的嵌入向量;
將各所述單字的嵌入向量輸入所述編碼器進行編碼處理得到所述原始文本的編碼矩陣;
根據所述編碼矩陣基于所述解碼器進行多次循環解碼分別得到多個生成詞的詞向量,其中,每進行一次循環解碼得到一個生成詞的詞向量。
4.如權利要求1所述的文摘自動生成方法,其特征在于:所述訓練好的分類模型包括歸一化指數函數,基于多個所述生成詞的詞向量和訓練好的分類模型將多個生成詞分別分為第一類生成詞或第二類生成詞,包括:將各所述生成詞的詞向量輸入下述歸一化指數函數進行計算得到各所述生成詞的評分向量:
Scorei=Softmax1((WpmVi+bpm)Wc),
其中,Vi表示第i個生成詞的詞向量,i=1,...,N,N表示生成詞的總個數,Wpm、bpm以及Wc是訓練好的參數,所述評分向量Scorei包括第i個生成詞的詞向量選擇指針網絡的第一得分和選擇記憶網絡的第二得分,Softmax1(·)表示歸一化指數函數;
若所述評分向量Scorei中的第一得分大于等于第二得分時,則第i個生成詞為第一類生成詞;
若所述評分向量Scorei中的第一得分小于第二得分時,則第i個生成詞為第二類生成詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州遠傳新業科技有限公司,未經杭州遠傳新業科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010898531.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:農產品禁產區劃分方法及系統、電子設備及介質
- 下一篇:一種自動收線式墨盒





