[發明專利]融合蘊含知識的自動文摘方法及系統有效
| 申請號: | 201810499465.4 | 申請日: | 2018-05-23 |
| 公開(公告)號: | CN108763211B | 公開(公告)日: | 2020-07-31 |
| 發明(設計)人: | 張家俊;李浩然;宗成慶 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F40/30;G06F16/35 |
| 代理公司: | 北京市恒有知識產權代理事務所(普通合伙) 11576 | 代理人: | 郭文浩 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 融合 蘊含 知識 自動 文摘 方法 系統 | ||
1.一種融合蘊含知識的自動文摘方法,其特征在于,所述方法包括:
獲取待進行文摘提取的新聞文本;
利用預先構建的文摘提取模型提取所述新聞文本的文摘;
其中,所述文摘提取模型是基于編碼器-解碼器的端到端模型;
所述文摘提取模型中的編碼器是基于預設的語料庫,并利用多任務學習算法構建的編碼模型,并且所述文摘提取模型中的解碼器是基于所述語料庫,并利用增強學習算法構建的解碼模型;
所述語料庫包括預設的新聞語料和所述新聞語料對應的蘊含語料;所述蘊含語料的語料文本包括條件文本和假設文本,所述條件文本取決于所述新聞語料的文本內容,所述假設文本是所述文本內容所蘊含的語義文本;所述編碼模型包括第一編/解碼網絡和第一蘊含分類網絡;在“利用預先構建的文摘提取模型提取所述新聞文本的文摘”的步驟之前,所述方法包括:
利用所述第一編/解碼網絡中的編碼網絡分別對所述新聞語料和蘊含語料的語料文本進行編碼;
利用所述第一編/解碼網絡中的解碼網絡,并根據所述新聞語料的編碼,生成所述新聞語料的摘要;
利用所述第一蘊含分類網絡,并根據所述蘊含語料的編碼,對所述蘊含語料進行分類;
按照下式所示的損失函數L1,并根據所述第一編/解碼網絡得到的編碼信息、摘要和所述蘊含語料的分類,對所述編碼模型進行模型訓練:
L1=α×L-log+β×Lcross
其中,所述L-log是所述第一編/解碼網絡對應的損失函數,所述Lcross是第一蘊含分類網絡對應的損失函數,所述α和β是預設的權重系數。
2.根據權利要求1所述的融合蘊含知識的自動文摘方法,其特征在于,所述L-log是所述第一編/解碼網絡對應的損失函數,所述Lcross是第一蘊含分類網絡對應的損失函數;所述第一蘊含分類網絡是多層感知機網絡;
“根據所述第一編/解碼網絡得到的編碼信息、摘要和所述蘊含語料的分類,對所述編碼模型進行模型訓練”的步驟包括:
根據所述編/解碼網絡得到的編碼信息和摘要,并利用隨機梯度下降算法,對所述編碼模型進行模型訓練。
3.根據權利要求1所述的融合蘊含知識的自動文摘方法,其特征在于,所述解碼模型包括第二編/解碼網絡和第二蘊含分類網絡;在“利用預先構建的文摘提取模型提取所述新聞文本的文摘”的步驟之前,所述方法包括:
利用所述第二編/解碼網絡中的編碼網絡對所述新聞語料進行編碼;
利用所述第二編/解碼網絡中的解碼網絡,并根據所述新聞語料的編碼,生成所述新聞語料的摘要;
利用所述第二蘊含分類網絡,計算所生成的摘要與所述新聞語料之間的蘊含得分;
基于預設的模型損失函數,并根據所述新聞語料的編碼、摘要和蘊含得分,對所述解碼模型進行模型訓練;
其中,所述模型損失函數中待優化模型參數的權重值取決于所述蘊含得分。
4.根據權利要求3所述的融合蘊含知識的自動文摘方法,其特征在于,所述模型損失函數是負對數極大似然損失函數,所述第二蘊含分類網絡是多層感知機網絡;
“根據所述新聞語料的編碼、摘要和蘊含得分,對所述解碼模型進行模型訓練”的步驟包括:
根據所述新聞語料的編碼、摘要和蘊含得分,并利用隨機梯度下降算法,對所述解碼模型進行模型訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810499465.4/1.html,轉載請聲明來源鉆瓜專利網。





