[發明專利]基于全局性特征提取的文本摘要自動生成方法及系統有效
| 申請號: | 202011423830.7 | 申請日: | 2020-12-08 |
| 公開(公告)號: | CN112559730B | 公開(公告)日: | 2021-08-24 |
| 發明(設計)人: | 鄒蕾;費廷偉;崔斌;石磊;楊波 | 申請(專利權)人: | 北京京航計算通訊研究所 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F40/289;G06Q50/18;G06N3/04 |
| 代理公司: | 北京天達知識產權代理事務所(普通合伙) 11386 | 代理人: | 李明里 |
| 地址: | 100074 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 全局性 特征 提取 文本 摘要 自動 生成 方法 系統 | ||
本發明涉及一種基于全局性特征提取的文本摘要自動生成方法及系統,方法包括以下步驟:將包含多個句子的文本載入訓練好的BERTSUM?CNN?LSTM?attention編碼模型中;通過BERTSUM網絡對文本中每個句子進行編碼,輸出第一特征;通過CNN網絡處理第一特征,提取包含不同句子之間關聯關系的第二特征;通過LSTM網絡處理第二特征,提取用于表征文本中句子依賴關系的第三特征;通過attention網絡對第三特征進行規范化操作,得到對每個第三特征進行權重賦值的第四特征;將第四特征引出至輸出層,用于獲取文本中每個句子的摘要預測概率,進而生成文本的摘要。本發明對多句子文本進行準確理解,即考慮句子間的局部特征,又考慮整個文檔的整體特征以確保本文摘要生成質量。
技術領域
本發明屬于文本處理技術領域,具體涉及一種基于全局性特征提取的文本摘要自動生成方法及系統。
背景技術
法律訴訟作為解決糾紛的方式,與人民生活息息相關。隨著社會經濟的發展,越來越多的訴訟案件涌入法庭,隨之而來的是大量的法律文書,案情摘要是對法律文書內容進行壓縮、歸納和總結,法律文書的案情摘要對我國法治建設具有重要意義。如何從海量法律文本信息中獲取關鍵信息便于辦案人員把握案情,成為一種急需解決的問題。
目前,法律領域的案情摘要自動生成可采取基于文本摘要的方法來完成?;谡难芯恐饕ǔ槿∈秸椒ê蜕墒秸獌煞N方法。有學者提出將融合關鍵詞的方法用于抽取式文本摘要生成,提出將關鍵詞作為指示來提高文本抽取準確率,通過關鍵詞與標題詞相結合得到關鍵詞列表,并依據此構建與當前文本相近的語料庫從中抽取出主題相關詞,最后采用算法完成摘要抽取。針對現有模型在生成摘要時會出現無關摘要詞的問題,有研究提出將關鍵詞融入到文本摘要生成過程中。該方法利用關鍵詞信息并結合門控單元去除冗余信息,從而獲得更精準的文本信息。
為了提高對文本的語義理解以進一步提升文本生成質量,學者將神經網絡模型用于文本摘要,注入文本語言特征信息,構造一種改進的序列-序列的神經網絡模型,該模型采用基于注意力機制的RNN模型,可以很好的進行語義理解,進而提高文本摘要生成效果。有學者結合CNN和LSTM模型對構造的漢字子塊進行特征提取,解決未登錄詞問題,在下游的自然語言處理任務中取得了比較好的效果,然而在文本分類任務中,結果低于最佳模型BERT。也有學者提出一種基于BERT-PGN的模型完成中文新聞摘要自動生成任務,該方法以BERT模型獲取文本詞向量,得到更細粒度的上下文相關的文本表示,進而獲得更高的文本摘要結果。
以上方法對于包含句子數量較少的文檔取得了較高的文本摘要生成質量。但對公益訴訟案件訴前審查報告文檔,通常包含多個句子,屬于多句子文檔生成問題,所以需要處理多句子文檔文本生成問題。有學者將BERTSUM模型用于文本摘要生成,采用BERTSUM進行句子級別編碼,獲取每個文檔的摘要,并將其與摘要層相結合,將摘要任務轉化為分類任務,在摘要層分別實現了最優的生成結果。然而不足之處是在摘要層采用了Transformer模塊使得參數過多,內存開銷過大,尤其在有限的GPU資源條件下,無法完成文本的快速生成。在摘要層用LSTM代替Transformer來完成摘要生成,節省運算時間,實時性較好,但由于未考慮局部特征使得文本生成質量有所下降。也有研究提出提取TF-TDF特征并結合詞向量得到文檔的特征向量,并對特征向量進行聚類分析,得到具有共同主題的文檔,對每個文檔,采用BERTSUM進行句子級別編碼,獲取每個文檔的摘要,最終確定目標文檔,得到代表性摘要,其本質是對每個文檔提取多個句子特征,直接選取全連接作為摘要層以獲取句子摘要的預測值。全連接相比Transformer或LSTM,其預測結果有待提高。
發明內容
鑒于上述的分析,本發明旨在公開了一種基于全局性特征提取的文本摘要自動生成方法及系統,解決目前多個句子的文本摘要自動生成的問題。
本發明公開了一種基于全局性特征提取的文本摘要自動生成方法,包括以下步驟:
將包含多個句子的文本載入訓練好的BERTSUM-CNN-LSTM-attention編碼模型中;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京航計算通訊研究所,未經北京京航計算通訊研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011423830.7/2.html,轉載請聲明來源鉆瓜專利網。





