[發明專利]摘要提取和摘要抽取模型訓練方法及相關裝置、存儲介質有效
| 申請號: | 202010025465.8 | 申請日: | 2020-01-10 |
| 公開(公告)號: | CN111241267B | 公開(公告)日: | 2022-12-06 |
| 發明(設計)人: | 葉忠義;吳飛;方四安;徐承 | 申請(專利權)人: | 科大訊飛股份有限公司 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34 |
| 代理公司: | 深圳市威世博知識產權代理事務所(普通合伙) 44280 | 代理人: | 劉希 |
| 地址: | 230088 安徽省*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 摘要 提取 抽取 模型 訓練 方法 相關 裝置 存儲 介質 | ||
本申請公開了一種摘要提取和摘要抽取模型訓練方法及相關裝置、存儲介質,其中,摘要提取方法包括:對文本進行分句得到句子列表,按照預設長度對句子列表按照順序進行窗口劃分得到多個窗口,且預設長度為摘要抽取模型支持的最大序列長度,每個窗口包括多個連續的句子且長度小于或等于預設長度,相鄰的兩個窗口包括至少一個相同的句子,利用摘要抽取模型分別對每個窗口進行預測,得到每個窗口中每個句子的重要性得分,利用每個窗口中每個句子的重要性得分確定文本中每個句子的重要性得分,選擇按重要性得分從高到低排序靠前的至少一個句子作為文本的摘要。上述方案,能夠提高摘要提取的質量。
技術領域
本申請涉及自然語言處理技術領域,特別是涉及一種摘要提取和摘要抽取模型訓練方法及相關裝置、存儲介質。
背景技術
隨著信息技術的發展,通過機器學習實現對自然語言的處理逐漸受到人們的青睞。以深度學習為例,可以將基于神經網絡的模型應用于機器翻譯、文本摘要等與自然語言處理相關的任務。
由于互聯網技術的發展,人們每天都可能收到大量的新聞、文章等信息。故對這些信息進行摘要提取,能夠提高人們獲取信息的效率。然而,在實際應用中,特別是在對諸如工作報告、會議總結等長文本進行摘要提取時,極可能出現信息丟失或信息冗余等影響摘要提取質量的情況。有鑒于此,如何提高摘要提取的質量成為亟待解決的問題。
發明內容
本申請主要解決的技術問題是提供一種摘要提取和摘要抽取模型訓練方法及相關裝置、存儲介質,能夠提高摘要提取的質量。
為了解決上述問題,本申請第一方面提供了一種摘要提取方法,包括:對文本進行分句得到句子列表,按照預設長度對句子列表按照順序進行窗口劃分得到多個窗口,且預設長度為摘要抽取模型支持的最大序列長度,每個窗口包括多個連續的句子且長度小于或等于預設長度,相鄰的兩個窗口包括至少一個相同的句子,利用摘要抽取模型分別對每個窗口進行預測,得到每個窗口中每個句子的重要性得分,利用每個窗口中每個句子的重要性得分確定文本中每個句子的重要性得分,選擇按重要性得分從高到低排序靠前的至少一個句子作為文本的摘要。
為了解決上述問題,本申請第二方面提供了一種摘要抽取模型訓練方法,包括:訓練適用于摘要抽取的基于雙向轉換的編碼器模型;利用適用于摘要抽取的基于雙向轉換的編碼器模型構建摘要抽取模型;利用文本摘要訓練集訓練摘要抽取模型。
為了解決上述問題,本申請第三方面提供了一種摘要提取方法,包括:利用摘要抽取模型對文本進行預測,得到文本中每個句子的重要性得分;獲取按重要性得分從高到低排序靠前的多個句子的特征;按照摘要最大長度對多個句子中的至少部分進行組合,得到多個句子組合,每個句子組合的長度小于或等于摘要最大長度;利用訓練好的評分回歸器對每個句子組合進行預測得到預測質量分;選擇預測質量分最高的一個句子組合作為文本的摘要。
為了解決上述問題,本申請第四方面提供了一種摘要提取裝置,包括相互耦接的存儲器和處理器,存儲器存儲有程序指令,處理器用于執行程序指令以實現上述第一方面或第三方面中的摘要提取方法。
為了解決上述問題,本申請第五方面提供了一種摘要抽取模型訓練裝置,包括相互耦接的存儲器和處理器,存儲器存儲有程序指令,處理器用于執行程序指令以實現上述第二方面中的摘要抽取模型訓練方法。
為了解決上述問題,本申請第六方面提供了一種計算機可讀存儲介質,存儲有程序指令,其特征在于,程序指令被處理器執行時實現上述第一方面中的摘要提取方法,或實現上述第二方面中的摘要抽取模型訓練方法,或實現上述第三方面中的摘要提取方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科大訊飛股份有限公司,未經科大訊飛股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010025465.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種農產品冷凍預處理裝置
- 下一篇:數值模板生成方法及數值模板生成裝置





