[發明專利]生成文本摘要的方法及裝置有效
| 申請號: | 201910243139.1 | 申請日: | 2019-03-28 |
| 公開(公告)號: | CN110019768B | 公開(公告)日: | 2021-09-21 |
| 發明(設計)人: | 遲耀明 | 申請(專利權)人: | 北京寓樂世界教育科技有限公司 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F16/33;G06N3/04 |
| 代理公司: | 北京眾元弘策知識產權代理事務所(普通合伙) 11462 | 代理人: | 孫東風 |
| 地址: | 100041 北京市石景*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 生成 文本 摘要 方法 裝置 | ||
本申請公開了一種生成文本摘要的方法及裝置。該方法包括將待處理文本數據輸入預設全局特征提取網絡,抽取出所述待處理文本數據的第一文本摘要;將所述第一文本摘要作為預訓練結果,輸入預設局部特征提取網絡,并通過所述預設局部特征提取網絡生成第二文本摘要;以及將所述第二文本摘要作為生成所述待處理文本數據的文本摘要結果。本申請解決了生成文本摘要時內容過于機械單一且可讀性不強的技術問題。通過本申請生成的文本摘要,結合了抽取式和生成式兩種處理方式進行,既保留了原文的含義,又不是機械復制,得到的文本摘要具有可讀性。
技術領域
本申請涉及文本處理、自然語言處理領域,具體而言,涉及一種生成文本摘要的方法及裝置。
背景技術
文本摘要,是指對包含較多內容的目標文本數據進行壓縮處理,得到用戶關注或感興趣的文字內容的過程。
發明人發現,現有的文本摘要方法有的摘要內容過于機械,有的摘要內容可讀性不強。進一步,不適合直接用于機器寫作或對于關注的熱點話題進行有效地文本壓縮。
針對相關技術中生成文本摘要時內容過于機械單一且可讀性不強的問題,目前尚未提出有效的解決方案。
發明內容
本申請的主要目的在于提供一種生成文本摘要的方法及裝置,以解決生成文本摘要時內容過于機械單一且可讀性不強的問題。
為了實現上述目的,根據本申請的一個方面,提供了一種生成文本摘要的方法。
根據本申請的生成文本摘要的方法,包括:將待處理文本數據輸入預設全局特征提取網絡,抽取出所述待處理文本數據的第一文本摘要;將所述第一文本摘要作為預訓練結果,輸入預設局部特征提取網絡,并通過所述預設局部特征提取網絡生成第二文本摘要;以及將所述第二文本摘要作為生成所述待處理文本數據的文本摘要結果。
進一步地,所述預設局部特征提取網絡包括如下建立步驟:將循環神經網絡作為主干網絡并采用自注意力機制,搭建多重注意力網絡;在所述多重注意力網絡中采用特定數據集作為訓練集,訓練得到局部特征提取網絡。
進一步地,所述特定數據集的獲取方法包括如下步驟:選取預設領域中的文本數據作為原始文本;接收經過轉寫處理后的所述文本數據作為轉寫文本;將所述原始文本和所述轉寫文本分別作為所述局部特征提取網絡的訓練數據集。
進一步地,所述全局特征提取網絡包括如下建立步驟:使用文本數據中的全文內容和文本標題作為訓練數據集;使用文本專業詞匯作為輔助訓練集;根據所述訓練數據集和輔助訓練集,使用遞歸神經網絡訓練得到全局特征提取網絡。
進一步地,抽取出所述待處理文本數據的第一文本摘要包括:在所述全局特征提取網絡提取全局特征并作為關鍵詞;結合所述全局特征以及抽取式文本摘要算法抽取第一文本摘要。
為了實現上述目的,根據本申請的另一方面,提供了一種生成文本摘要的裝置。
根據本申請的生成文本摘要的裝置包括:抽取模塊,用于將待處理文本數據輸入預設全局特征提取網絡,抽取出所述待處理文本數據的第一文本摘要;生成模塊,用于將所述第一文本摘要作為預設局部特征提取網絡的輸入,通過所述預設局部特征提取網絡生成第二文本摘要;以及結果模塊,用于輸出所述待處理文本數據的文本摘要生成結果。
進一步地,所述生成模塊包括:預設局部特征提取網絡建立模塊,所述預設局部特征提取網絡建立模塊包括:搭建單元,用于將循環神經網絡作為主干網絡并采用自注意力機制,搭建多重注意力網絡;第一訓練單元,用于在所述多重注意力網絡中采用特定數據集作為訓練集,訓練得到局部特征提取網絡。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京寓樂世界教育科技有限公司,未經北京寓樂世界教育科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910243139.1/2.html,轉載請聲明來源鉆瓜專利網。





