[發明專利]一種基于關鍵句和關鍵字的反向生成摘要的方法在審
| 申請號: | 201910281699.6 | 申請日: | 2019-04-09 |
| 公開(公告)號: | CN109977220A | 公開(公告)日: | 2019-07-05 |
| 發明(設計)人: | 舒泓新;蔡曉東;蔣鵬;馬新成 | 申請(專利權)人: | 中通服公眾信息產業股份有限公司 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34 |
| 代理公司: | 濟南智圓行方專利代理事務所(普通合伙企業) 37231 | 代理人: | 張玉琳 |
| 地址: | 830000 新疆維*** | 國省代碼: | 新疆;65 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 原文 摘要信息 解碼器 測試數據集 注意力模型 語義 框架網絡 冗余信息 摘要提取 重要信息 辨識 放入 構建 文檔 語句 語法 字典 文本 中文 | ||
本發明涉及一種基于關鍵字和關鍵句的反向生成摘要的方法。方法包括:構建關鍵字和關鍵句的訓練和測試數據集,搭建序列到序列的框架網絡,通過對關鍵字和關鍵句進行編碼,再有選擇注意力模型對需要提取的地方進行定位和選擇,若提取的摘要信息在原文中就選擇原文,反之就從字典中選取摘要信息,將定位和選擇好的內容放入反向解碼器中,再經查重模塊,最終得到文本摘要。發明的有益效果是:基于關鍵字和關鍵句的摘要提取方法使得文檔中的冗余信息降低、對原文中重要信息的辨識能力提高、產生的摘要具有對原文的高度概括且符合中文語法,語句更加流暢,語義也更加符合文意。
技術領域
本發明涉及自然語言處理技術領域,特別涉及一種基于關鍵句和關鍵字的反向生成摘要的方法。
背景技術
在自然語言處理領域,文本摘要生成占據著重要的地位,它主要應用于新聞信息服務、文獻自動索引、信息檢索、搜索引擎等方面。文本摘要生成主要分為提取式和生成式。但隨著注意力模型的出現,文本摘要的到了快速的發展。但目前主流的方法是基于序列到序列模型的文本摘要算法。這種算法利用了深度學習技術,使得訓練生成的摘要與標準摘要相接近。這種模型的缺點是易出現重復字、對文本冗余信息的識別和處理能力差、對文本的重要信息的辨別能力差且傾向于從文本中直接提取關鍵信息,當遇到原文中一些需要高度概括的地方時,其創造新詞的能力較差,不能形成高度概括的文本摘要。
傳統的序列到序列的模型都依靠注意力機制來挑選標準答案的出處。當一些段落沒有標準答案的出處時,它就不能準確的找到答案的出處,而是隨機的在原文中找一句,最終形成的摘要也就不準確。這就需要去提升注意力模型的定位與選擇能力能力。這樣該模型才能有高度概括的能力。
生成的摘要也會出現詞語之間搭配不準確或不合理,最終導致摘要語句語義、流暢性等受到影響。句子中某些結構是修飾詞加中性詞的形式。若將其翻轉變為中性詞在前修飾詞在后,從概率論的角度,修飾詞更加容易確定。
發明內容
針對語料數據稀疏、注意力模型不能準確定位摘要出處和摘要不能對原文進行高度概括、生成的摘要中詞語搭配不合理、摘要中有重復字的技術問題,提供一種基于關鍵句和關鍵字的反向生成摘要的方法。
其技術方案為,
1、針對數據稀疏問題,分別用tf-idf算法和用textrank算法提取原文的30個關鍵字和2個關鍵句。將這些關鍵字與答案的關鍵字用正則表達式進行匹配將不同的關鍵字加入到30個關鍵字中。
2、針對注意力模型不能準確定位問題,使用上述這些關鍵字指引注意力模型在原文中準確定位。
3、針對不能形成高度概括的摘要,在注意力模型上加入選擇門,先通過注意力去尋找標準答案出處,若存在則使用該出處生成摘要。若不從在,注意力模型就不用去原文中尋找,直接使用詞典中的詞造出與標準答案相接近的摘要。
4、針對摘要最后生成階段有些詞與另一些詞搭配不合理,采用將標準答案翻轉,經訓練后形成的摘要也會被翻轉,這樣一些修飾詞更容易被確定,且不破壞句子其他結構。
5、針對重復字問題,在摘要生成過程中查重模塊會控制注意力機制。
本方法的具體步驟為:
S1、將獲取的語料生成文檔;
S2、分別用tf-idf算法和用textrank算法提取原文的若干個關鍵字和關鍵句;
S3、用正則表達式比較標準答案與所述S2提取的關鍵字,將標題中不同的關鍵字增加到S2提取的關鍵字中;
S4、將獲取的所述關鍵字和關鍵句分別輸入兩個編碼器中;
S5、選擇注意力模型在編碼器或在字典中尋找形成摘要的關鍵信息;語料在進入網絡時,會自動統計關鍵字和關鍵句以及標題里的字,將這些字作為字典。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中通服公眾信息產業股份有限公司,未經中通服公眾信息產業股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910281699.6/2.html,轉載請聲明來源鉆瓜專利網。





