[發明專利]一種融合預訓練模型的文本摘要自動生成方法及系統在審
| 申請號: | 202110088451.5 | 申請日: | 2021-01-22 |
| 公開(公告)號: | CN112765345A | 公開(公告)日: | 2021-05-07 |
| 發明(設計)人: | 鄧維斌;李云波;胡峰;王崇宇;朱坤;彭露 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F16/335;G06F40/126;G06F40/284;G06N3/04;G06N3/08 |
| 代理公司: | 北京同恒源知識產權代理有限公司 11275 | 代理人: | 楊柳岸 |
| 地址: | 400065 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 訓練 模型 文本 摘要 自動 生成 方法 系統 | ||
1.一種融合預訓練模型的文本摘要自動生成方法,其特征在于:所述方法包括以下步驟:
S1、獲取法律文本數據集,構建法律文本的訓練數據集合T并對數據集進行預處理;
S2、對法律文本進行語句的篩選;
S3、將訓練集利用預訓練模型BERT自帶的字表進行分字并編碼為向量,得到網絡的輸入序列;
S4、用預訓練模型BERT作為編碼器,使用卷積神經網絡構建門控單元,對預訓練模型BERT的輸出進行關鍵短語的篩選;使用Transformer的Decoder部分和指針生成網絡作為模型的編碼器;
S5、將測試文本分字并編碼后,放入已經訓練好的網絡模型,使用Beam Search算法進行摘要生成,最終得到法律文書摘要結果。
2.根據權利要求1所述的一種融合預訓練模型的文本摘要自動生成方法,其特征在于:所述步驟S 1中預處理包括提取文本信息,清除特殊字符,將數據集以summarization-article的數據對形式整理并切分為訓練集和測試集。
3.根據權利要求1所述的一種融合預訓練模型的文本摘要自動生成方法,其特征在于:所述步驟S2具體為:使用正則表達式的方式對法律文本進行語句的篩選,篩選包含有關鍵信息的句子,過濾對于摘要沒有貢獻的句子。
4.根據權利要求1所述的一種融合預訓練模型的文本摘要自動生成方法,其特征在于:所述步驟S3具體為:
S31、將訓練集文本S分字處理得到詞組S1、S2...Sm,Si表示輸入文本的第i個字,m表示S的長度,若m小于網絡最大輸入長度512,則使用特殊字符‘PAD’填補至最大長度;若m大于最大輸入長度512,則截去多余的字符;
S32、根據詞組中每個詞Si在詞典D中的行數得到字符編碼Etoken,并拼接在一起的字符編碼Eposition,然后按照Transformer的處理方式分別得到句子編碼向量Esentence和相對位置編碼向量Eposition,最后通過求和得到最終的輸入向量Es為:
字符編碼為:
句子編碼向量為:
相對位置編碼向量為:
S33、將Es輸入網絡,并使用交叉熵損失函數訓練網絡。
5.根據權利要求1所述的一種融合預訓練模型的文本摘要自動生成方法,其特征在于,所述步驟S4具體為:
S41、搭建編碼器網絡預訓練模型BERT,設定網絡的最大輸入長度為512字符,并使用公開的預訓練權重初始化預訓練模型BERT,下載BERT-chinese-wwm作為預訓練語料;
S42、卷積門控單元包括一個inception結構的CNN和self-attention機制,用于解決模型生成的摘要會出現字詞重復、語義不對應、語法錯誤和不能反映原文本的主要內容;
S43、利用12層Transformer Decoder模塊作為模型的解碼器,設定Transformer的最大輸出長度為130字符;
S44、使用改進的基于RNN的指針生成器,作為本次模型的生成器。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110088451.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:滑輪裝置及推拉門窗
- 下一篇:一種地電位安裝避雷器防護罩及絕緣操作桿





