[發明專利]一種摘要的生成方法、裝置及存儲介質在審
| 申請號: | 202210408534.2 | 申請日: | 2022-04-19 |
| 公開(公告)號: | CN115329064A | 公開(公告)日: | 2022-11-11 |
| 發明(設計)人: | 周玉;林海濤;向露;宗成慶 | 申請(專利權)人: | 北京中科凡語科技有限公司 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F16/332 |
| 代理公司: | 湖北權上知識產權代理事務所(特殊普通合伙) 42287 | 代理人: | 范瑞鵬 |
| 地址: | 100190 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 摘要 生成 方法 裝置 存儲 介質 | ||
本發明公開一種摘要的生成方法、裝置及存儲介質,屬于自然語言處理技術領域。該摘要的生成方法,包括:S1、解碼器根據訓練數據庫中的構建詞表逐步獲得對應的角色在輸出詞表中的相關單詞的輸出概率;S2、將輸出概率最大的k個單詞提取出來拼接到模型中已解碼的單詞序列上作為候選摘要;S3、模型將多個候選摘要按照輸出概率的大小進行排序,并確保束的大小為k;模型預測結束后,取輸出概率最大的候選序列作為摘要。本發明還包括摘要的生成裝置和存儲介質。該存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現上述摘要的生成方法的步驟。該生成方法幫助模型生成更好的面向該角色的摘要,生成的摘要內容有顯著的提升。
技術領域
本發明涉及自然語言處理技術領域,具體涉及一種摘要的生成方法、裝置及存儲介質。
背景技術
文本摘要是一種將一段長文本中的內容用一段短文本進行概括的任務。應用該技術可以使人們快速掌握文本中的關鍵信息。近些年,隨著通訊手段的不斷進步,越來越多的文本信息以對話形式出現。對話文本存在輪數較長,語義不連貫,表達方式口語化等眾多特點。相較于直接閱讀對話原文,閱讀該對話的一段摘要能夠大幅提高人們的閱讀效率,因此對話摘要技術開始逐漸受到人們的關注。
相較于一般的文本,對話的一個特點在于其由多個說話人的表達內容構成,而每個說話人在對話中都扮演著各自的角色和持有各自的觀點。因此,除了針對于對話的討論內容做一個通用的整體摘要以外,我們還可以針對于不同的對話角色摘要出和該角色相關的摘要內容,即面向角色的對話摘要。在客戶服務領域,角色摘要有著很大的實際應用價值。面向用戶的摘要主要包含用戶提出的疑問和遇到的難點,可以反應出哪些問題經常被用戶提出,便于相關平臺進行統計分析。面向客服的摘要主要包括客服解決問題的流程,可以幫助平臺自動評價客服的服務質量。
現有的面向角色的對話摘要方法大多將不同角色分開來看,分別摘要各自角色的主要內容,如何利用其他角色的信息生成面向角色的對話摘要是現有技術需要解決的問題。
發明內容
由于對話中不同角色之間存在著交互,某一個角色的說話內容有可能對于另一個角色的摘要提供必要的幫助。因此,本發明提出了一種摘要的生成方法、裝置及存儲介質,包含不同的角色,從對話語句方面和摘要方面提取其他角色的關鍵信息,幫助模型生成更將準確的面向該角色的摘要內容。
本發明的技術方案提供一種摘要的生成方法,包括以下步驟:
S1、解碼器根據訓練數據庫中的構建詞表逐步獲得對應的角色在輸出詞表中的相關單詞的輸出概率;
S2、將輸出概率最大的k個單詞提取出來拼接到模型中已解碼的單詞序列上作為候選摘要,其中k大于1;
S3、模型將多個候選摘要按照輸出概率的大小進行排序,并確保束的大小為k;模型預測結束后,取輸出概率最大的候選序列作為摘要。
進一步地,在步驟S1之前還包括建立和優化摘要生成模型,具體包括以下步驟:
T1、采用不同的編碼器將對話內容按照不同的角色進行相應編碼;
T2、解碼器根據對應的角色獲取該角色的語句表示,解碼器解碼時采用不同的注意力模塊關注到其他角色的語句表示;
T3、計算不同解碼器關注到同一個角色的語句表示的跨越注意力分布的KL散度,得到跨越注意力交互的損失函數;
T4、在解碼器的自注意力模塊中,每個解碼器的隱層表示關注到其他解碼器的隱層表示,形成角色自注意力交互;
T5、解碼器預測每個位置單詞的輸出概率,根據所述輸出概率結合最大似然估計得到摘要的損失函數;
T6、綜合所述跨越注意力交互的損失函數和所述摘要的損失函數,對于模型進行梯度下降的訓練和優化。
進一步地,在步驟T1中,所述采用不同的編碼器將對話內容按照不同的角色進行相應編碼包括:
步驟T11、將對話語句的說話人角色信息和對話內容按輪次順序拼接在一起,經過詞嵌入層得到詞嵌入表示;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中科凡語科技有限公司,未經北京中科凡語科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210408534.2/2.html,轉載請聲明來源鉆瓜專利網。





