[發明專利]摘要提取和摘要抽取模型訓練方法及相關裝置、存儲介質有效
| 申請號: | 202010025465.8 | 申請日: | 2020-01-10 |
| 公開(公告)號: | CN111241267B | 公開(公告)日: | 2022-12-06 |
| 發明(設計)人: | 葉忠義;吳飛;方四安;徐承 | 申請(專利權)人: | 科大訊飛股份有限公司 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34 |
| 代理公司: | 深圳市威世博知識產權代理事務所(普通合伙) 44280 | 代理人: | 劉希 |
| 地址: | 230088 安徽省*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 摘要 提取 抽取 模型 訓練 方法 相關 裝置 存儲 介質 | ||
1.一種摘要提取方法,其特征在于,包括:
對文本進行分句得到句子列表;
按照預設長度對所述句子列表按順序進行窗口劃分得到多個窗口,所述預設長度為摘要抽取模型支持的最大序列長度,每個所述窗口包括多個連續的句子且長度小于或等于所述預設長度,相鄰的兩個窗口包括至少一個相同的句子;
利用所述摘要抽取模型分別對每個所述窗口進行預測,得到每個所述窗口中每個所述句子的重要性得分;
利用所述每個所述窗口中每個句子的重要性得分確定所述文本中每個句子的重要性得分;
選擇按所述重要性得分從高到低排序靠前的至少一個所述句子作為所述文本的摘要。
2.根據權利要求1所述的方法,其特征在于,
所述利用所述每個所述窗口中每個句子的重要性得分確定所述文本中每個句子的重要性得分包括:
若所述句子只存在于一個所述窗口中,則將所述句子在所述窗口中的重要性得分作為所述句子的重要性得分;
若所述句子存在于至少兩個所述窗口中,則將所述句子在所有所述窗口中的重要性得分的平均值作為所述句子的重要性得分。
3.根據權利要求1所述的方法,其特征在于,
所述窗口長度小于或等于所述預設長度,并且若向所述窗口加入下一句子,所述窗口的長度大于所述預設長度,所述下一句子為在所述窗口的結尾句子之后的相鄰句子。
4.根據權利要求1所述的方法,其特征在于,
所述利用所述摘要抽取模型分別對每個所述窗口進行預測包括:
對所述窗口進行預處理;
將預處理后的所述窗口輸入所述摘要抽取模型,得到所述窗口的篇章語義信息和所述窗口中每個所述句子的句子語義信息;
利用所述篇章語義信息對每個所述句子的所述句子語義信息進行修正得到每個所述句子的篇章級句子語義信息;
分別對所述篇章級句子語義信息進行概率化處理得到所述窗口中每個所述句子的重要性得分。
5.根據權利要求4所述的方法,其特征在于,
所述摘要抽取模型為基于雙向轉換的編碼器的摘要抽取模型,所述摘要抽取模型包括嵌入層和轉換層,所述將預處理后的所述窗口輸入所述摘要抽取模型,得到所述窗口的篇章語義信息和所述窗口中每個所述句子的句子語義信息包括:
將預處理后的所述窗口輸入所述嵌入層,得到所述窗口中所有的詞語義特征、句子語義特征和句子位置特征;
將所述詞語義特征、句子語義特征和句子位置特征送入所述轉換層得到所述窗口的篇章語義信息和所述窗口中每個所述句子的句子語義信息。
6.根據權利要求1-5中任一項所述的方法,其特征在于,
所述利用所述摘要抽取模型分別對每個所述窗口進行預測之前進一步包括:
訓練適用于摘要抽取的基于雙向轉換的編碼器模型;
利用所述適用于摘要抽取的基于雙向轉換的編碼器模型構建所述摘要抽取模型;
利用文本摘要訓練集訓練所述摘要抽取模型。
7.根據權利要求6所述的方法,其特征在于,
所述適用于摘要抽取的基于雙向轉換的編碼器模型的訓練設置包括以下至少一種:
批處理大小大于第一預設值;
損失函數包括預測兩句是否在同一篇章的損失函數;
每次訓練的序列長度大于第二預設值;
每次訓練動態分配遮蔽詞的處理方式;
所述遮蔽詞的處理方式包括丟棄所述遮蔽詞;
采用短語和/或命名實體作為遮蔽詞。
8.根據權利要求6所述的方法,其特征在于,
所述利用所述適用于摘要抽取的基于雙向轉換的編碼器模型構建所述摘要抽取模型之前進一步包括:
利用所述文本摘要訓練集對所述適用于摘要抽取的基于雙向轉換的編碼器模型進行領域微調。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科大訊飛股份有限公司,未經科大訊飛股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010025465.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種農產品冷凍預處理裝置
- 下一篇:數值模板生成方法及數值模板生成裝置





