[發明專利]一種抽取式與生成式相結合的公文摘要生成模型有效
| 申請號: | 201910330573.3 | 申請日: | 2019-04-23 |
| 公開(公告)號: | CN110119444B | 公開(公告)日: | 2023-06-30 |
| 發明(設計)人: | 宋榮偉;王進;王鵬 | 申請(專利權)人: | 中電科大數據研究院有限公司 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F40/205;G06F40/242;G06F40/284;G06F40/30;G06N3/0442;G06N3/0455 |
| 代理公司: | 貴州派騰知識產權代理有限公司 52114 | 代理人: | 谷慶紅 |
| 地址: | 550000 貴州省貴陽市貴陽*** | 國省代碼: | 貴州;52 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 抽取 生成 相結合 公文 摘要 模型 | ||
1.一種抽取式與生成式相結合的公文摘要生成模型,其特征在于:包括以下步驟:
①公文內容篩選:從公文數據語料中,對公文內容進行篩選,去除公文中的公文摘要噪聲數據;
②數據清洗、預處理:對篩選后的公文進行文本預處理和清洗,獲取文本數據,將文本數據進行預處理分詞,再利用訓練好的政務領域專用word2vec模型將分詞后的詞語表示成詞向量;
③抽取式摘要模型:將詞向量融合表示成句子向量,并將句子向量輸入抽取式摘要模型,獲取每個句子在公文中的重要性,選取重要性最大的句子作為抽取式摘要模型生成的弱標簽摘要數據A;
④弱標簽摘要數據A語義增強:對弱標簽摘要數據A進行數據增強,增強摘要句子之間的語義連貫性,篩選去除抽取式摘要模型中置信度較小的樣本;
⑤生成式摘要模型:將弱標簽摘要數據A以及公文數據語料輸入生成式摘要模型,并采用步驟①及步驟②的方法對公文數據語料進行處理;
⑥公文摘要:訓練步驟⑤中的生成式摘要模型,獲取公文摘要生成模型;
所述步驟③分為以下步驟:
(3.1)將每個句子中的詞向量相加取平均,得到句子向量,采用余弦相似度的方法,獲取公文中句子與句子之間的相似度;
(3.2)輸入句子相似度矩陣,使用抽取式摘要模型,采用textrank算法,獲取到每個句子在公文中的重要度,選取重要度高的句子作為抽取式摘要模型的弱標簽摘要數據A;
所述步驟④中,對弱標簽摘要數據A采用正則匹配的方式去除弱標簽摘要數據A中的數字、網絡字符以及特殊字符,并利用連接詞詞典,增加句子的語義連貫性,對弱標簽摘要數據A進行增強。
2.如權利要求1所述的抽取式與生成式相結合的公文摘要生成模型,其特征在于:所述步驟①中,公文摘要噪聲數據包括表格、具體敘述條文、名單列表,并采用正則匹配的方式去除公文中的表格、名單列表、具體敘述條文與公文正文之間的空白行。
3.如權利要求1所述的抽取式與生成式相結合的公文摘要生成模型,其特征在于:所述步驟②中,文本預處理和清洗為:去除篩選后的公文中的數字、網絡字符以及特殊字符。
4.如權利要求1所述的抽取式與生成式相結合的公文摘要生成模型,其特征在于:所述步驟⑤中,生成式摘要模型采用基于Seq2Seq+Attention機制的方法生成公文摘要序列。
5.如權利要求4所述的抽取式與生成式相結合的公文摘要生成模型,其特征在于:所述Seq2Seq由基于LSTM的編碼器和解碼器組成,并采用Attention機制來增大重要信息權重。
6.如權利要求1所述的抽取式與生成式相結合的公文摘要生成模型,其特征在于:所述步驟②分為以下步驟:
(2.1)采用正則匹配的方式去除篩選后的公文中的數字、網絡字符以及特殊字符;
(2.2)根據政務領域的特征構建政務領域停用詞表及分詞表,并采用jieba分詞對公文數據進行分詞;
(2.3)將步驟(2.1)中的公文進行政務領域詞向量模型訓練,獲取政務領域專用word2vec模型;
(2.4)利用訓練好的政務領域專用word2vec模型將分詞后的詞語表示成詞向量。
7.如權利要求1所述的抽取式與生成式相結合的公文摘要生成模型,其特征在于:所述步驟⑤分為以下步驟:
(5.1)采用步驟①及步驟②的方法對公文數據進行處理;
(5.2)編碼器對于輸入的公文正文句子,用一個雙向LSTM網絡進行編碼,其中在embedding部分使用政務領域專用word2vec詞向量模型進行向量化表示;
(5.3)解碼器采用單向LSTM網絡模型,在每個時刻輸入的公文數據語料由前一時刻的輸出、前一時刻隱藏狀態以及編碼器產生的語義向量組成,輸出為公文摘要序列;
(5.4)將步驟(5.1)~(5.3)中的數據輸入生成式摘要模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中電科大數據研究院有限公司,未經中電科大數據研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910330573.3/1.html,轉載請聲明來源鉆瓜專利網。





