[發明專利]融合蘊含知識的自動文摘方法及系統有效
| 申請號: | 201810499465.4 | 申請日: | 2018-05-23 |
| 公開(公告)號: | CN108763211B | 公開(公告)日: | 2020-07-31 |
| 發明(設計)人: | 張家俊;李浩然;宗成慶 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F40/30;G06F16/35 |
| 代理公司: | 北京市恒有知識產權代理事務所(普通合伙) 11576 | 代理人: | 郭文浩 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 融合 蘊含 知識 自動 文摘 方法 系統 | ||
本發明涉及自然語言處理領域,提出一種融合蘊含知識的自動文摘方法,旨在解決在對新聞文本的自動文摘中,因生成摘要包含錯誤的信息,不能正確反映新聞的主體信息,使得自動文摘的效果差的問題。該方法包括:獲取待進行文摘提取的新聞文本;利用預先構建的文摘提取模型提取上述新聞文本的文摘;其中,文摘提取模型是基于編碼器?解碼器的端到端模型;文摘提取模型中的編碼器是基于預設的語料庫,并利用多任務學習算法構建的編碼模型,并且/或者文摘提取模型中的解碼器是基于所述語料庫,并利用增強學習算法構建的解碼模型;語料庫包括預設的新聞語料和該新聞語料對應的蘊含語料。本發明可以快速、準確的從新聞文本中自動文摘出新聞文本的摘要。
技術領域
本發明涉及自然語言處理技術領域,具體涉及一種融合蘊含知識的自動文摘方法及系統。
背景技術
隨著網絡技術的飛速發展以及人類新思想的不斷引進,移動互聯網時代隨之而來,這使得各式各樣的新聞報道隨處可見。有效地分析新聞信息,獲取其中的重要信息,并以摘要的形式呈現給用戶,可以幫助用戶快速、便利地理解該新聞的主體信息。
對于新聞文本的自動文摘,當前大多使用編碼器-解碼器的端到端模型予以進行自動文摘。該模型通過編碼器將輸入文本編碼為隱層表示序列,然后通過解碼器輸出摘要。
然而,新聞文本的自動文摘的效果往往不能令人滿意,存在很多錯誤,例如,生成的摘要有時包含錯誤的信息,這樣的摘要并不能正確的反映輸入新聞的主體信息,使得自動文摘的效果較差,準確率低。
發明內容
為了解決現有技術中的上述問題,即為了解決在新聞文本的文本摘要提取中,自動文摘的效果較差,準確率低的技術問題。為此目的,本發明提供了一種融合蘊含知識的自動文摘方法,以解決上述問題。
第一方面,本發明提供的融合蘊含知識的自動文摘方法包括如下步驟:獲取待進行文摘提取的新聞文本;利用預先構建的文摘提取模型提取所述新聞文本的文摘;其中,所述文摘提取模型是基于編碼器-解碼器的端到端模型;所述文摘提取模型中的編碼器是基于預設的語料庫,并利用多任務學習算法構建的編碼模型,并且/或者所述文摘提取模型中的解碼器是基于所述語料庫,并利用增強學習算法構建的解碼模型;所述語料庫包括預設的新聞語料和所述新聞語料對應的蘊含語料;所述蘊含語料的語料文本包括條件文本和假設文本,所述條件文本取決于所述新聞語料的文本內容,所述假設文本是所述文本內容所蘊含的語義文本。
進一步地,本發明提供的一個優選技術方案中,所述編碼模型包括第一編/解碼網絡和第一蘊含分類網絡;在“利用預先構建的文摘提取模型提取所述新聞文本的文摘根據訓練用樣本數據,通過多任務學習,將包含蘊含關系特征的蘊含知識融入到所述編碼器”的步驟之前,所述方法包括:
利用所述第一編/解碼網絡中的編碼網絡分別對所述新聞語料和蘊含語料的語料文本進行編碼;利用所述第一編/解碼網絡中的解碼網絡,并根據所述新聞語料的編碼,生成所述新聞語料的摘要;利用所述第一蘊含分類網絡,并根據所述蘊含語料的編碼,對所述蘊含語料進行分類;按照下式所示的損失函數L1,并根據所述第一編/解碼網絡得到的編碼信息、摘要和所述蘊含語料的分類,對所述編碼模型進行模型訓練:
L1=α×L-log+β×Lcross
其中,所述L-log是所述編/解碼網絡對應的損失函數,所述Lcross是第一蘊含分類網絡對應的損失函數,所述α和β是預設的權重系數。
進一步地,本發明提供的一個優選技術方案中,所述L-log是負對數極大似然損失函數,所述Lcross是交叉熵損失函數;所述第一蘊含分類網絡是多層感知機網絡;“根據所述編/解碼網絡得到的編碼信息和摘要,對所述編碼模型進行模型訓練”的步驟包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810499465.4/2.html,轉載請聲明來源鉆瓜專利網。





