[發明專利]摘要生成方法、裝置、電子設備及介質在審
| 申請號: | 202010244210.0 | 申請日: | 2020-03-31 |
| 公開(公告)號: | CN111552800A | 公開(公告)日: | 2020-08-18 |
| 發明(設計)人: | 趙煥麗;徐國強 | 申請(專利權)人: | 深圳壹賬通智能科技有限公司 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F16/35;G06F40/186;G06F40/289 |
| 代理公司: | 深圳市賽恩倍吉知識產權代理有限公司 44334 | 代理人: | 劉麗華;孫芬 |
| 地址: | 518052 廣東省深圳市前海深港合作區前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 摘要 生成 方法 裝置 電子設備 介質 | ||
本發明提供一種摘要生成方法、裝置、電子設備及介質。該方法能夠獲取至少一個企業的至少一篇公告摘要并進行去重處理,對去重處理后的每篇公告摘要進行預處理,得到至少一個分詞,將每篇公告摘要的至少一個分詞輸入至預先訓練的參數抽取模型中,生成至少一個摘要模板,融合至少一個摘要模板,得到摘要模板庫,當接收到摘要生成指令時,從摘要生成指令中提取目標文本,確定目標文本所屬的文本類型,及確定目標文本對應的企業所屬的企業類型,確定同時與所述文本類型及所述企業類型匹配的目標摘要模板,從目標文本中提取所述目標摘要模板所需的信息,生成目標文本對應的摘要,通過分析已公布的公告摘要得到摘要模板,能夠提高摘要生成的準確率。
技術領域
本發明涉及數據處理技術領域,尤其涉及一種摘要生成方法、裝置、電子設備及介質。
背景技術
隨著監管機構對企業的監督與指導力度的加大,要求企業定期向社會公告與證券交易相關的重大事件,并披露相關統計數據,如:募集說明書、上市公告書等報告,為方便第三方快速了解企業的運行狀況,需要為這些報告提供摘要,由于每篇報告一般長達幾十頁,因此,人工處理時需要熟讀每篇報告后才能提供摘要,影響了摘要生成的效率,為此,自動生成摘要的方式應運而生。
在現有的摘要生成方案中,基于深度學習的摘要生成方案是通過分析報告原文的具體大意,進而概括地生成報告的摘要,該方法由于需要分析原文的大意,因此需要大量標注好的訓練樣本,然而,由于標注好的訓練樣本不易獲取,因此在沒有足夠多的訓練樣本的情況下,將會導致摘要自動生成的準確率低。傳統的抽取式摘要生成方案從文本中抽取語句,這種方式雖然便捷,但是句子之間連貫性不強,可讀性較差。
因此,如何構建準確且連貫性強的摘要生成方案,成了有待解決的技術問題。
發明內容
鑒于以上內容,有必要提供一種摘要生成方法、裝置、電子設備及介質,不僅能夠提高摘要生成的準確率,還能保證生成的摘要的連貫性。
一種摘要生成方法,所述方法包括:
獲取至少一個企業的至少一篇公告摘要,并對所述至少一篇公告摘要進行去重處理;
對去重處理后的每篇公告摘要進行預處理,得到每篇公告摘要的至少一個分詞;
將每篇公告摘要的至少一個分詞輸入至預先訓練的參數抽取模型中,生成至少一個摘要模板;
融合所述至少一個摘要模板,得到摘要模板庫;
當接收到摘要生成指令時,從所述摘要生成指令中提取目標文本;
確定所述目標文本所屬的文本類型,及確定所述目標文本對應的企業所屬的企業類型;
從所述摘要模板庫中確定同時與所述文本類型及所述企業類型匹配的目標摘要模板;
從所述目標文本中提取所述目標摘要模板所需的信息,及根據提取的信息及所述目標摘要模板,生成所述目標文本對應的摘要。
根據本發明優選實施例,所述對所述至少一篇公告摘要進行去重處理包括:
根據每篇公告摘要中的摘要標題,計算每篇公告摘要的哈希值;
從每篇公告摘要中抽取預設特征并建立特征索引;
根據每兩篇公告摘要的哈希值,采用余弦距離公式計算每兩篇公告摘要的相似距離,得到每對摘要對的相似距離,其中,每對摘要對包括任意兩篇公告摘要;
通過所述特征索引搜索出相似距離大于閾值的摘要對,并將該摘要對確定為相似摘要對;
判斷所述相似摘要對中的預設特征是否相同;
當所述相似摘要對中的預設特征相同時,刪除所述相似摘要對中的任意一條摘要。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳壹賬通智能科技有限公司,未經深圳壹賬通智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010244210.0/2.html,轉載請聲明來源鉆瓜專利網。





