[發明專利]摘要生成方法、裝置、電子設備及介質在審
| 申請號: | 202010244210.0 | 申請日: | 2020-03-31 |
| 公開(公告)號: | CN111552800A | 公開(公告)日: | 2020-08-18 |
| 發明(設計)人: | 趙煥麗;徐國強 | 申請(專利權)人: | 深圳壹賬通智能科技有限公司 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F16/35;G06F40/186;G06F40/289 |
| 代理公司: | 深圳市賽恩倍吉知識產權代理有限公司 44334 | 代理人: | 劉麗華;孫芬 |
| 地址: | 518052 廣東省深圳市前海深港合作區前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 摘要 生成 方法 裝置 電子設備 介質 | ||
1.一種摘要生成方法,其特征在于,所述摘要生成方法包括:
獲取至少一個企業的至少一篇公告摘要,并對所述至少一篇公告摘要進行去重處理;
對去重處理后的每篇公告摘要進行預處理,得到每篇公告摘要的至少一個分詞;
將每篇公告摘要的至少一個分詞輸入至預先訓練的參數抽取模型中,生成至少一個摘要模板;
融合所述至少一個摘要模板,得到摘要模板庫;
當接收到摘要生成指令時,從所述摘要生成指令中提取目標文本;
確定所述目標文本所屬的文本類型,及確定所述目標文本對應的企業所屬的企業類型;
從所述摘要模板庫中確定同時與所述文本類型及所述企業類型匹配的目標摘要模板;
從所述目標文本中提取所述目標摘要模板所需的信息,及根據提取的信息及所述目標摘要模板,生成所述目標文本對應的摘要。
2.如權利要求1所述的摘要生成方法,其特征在于,所述對所述至少一篇公告摘要進行去重處理包括:
根據每篇公告摘要中的摘要標題,計算每篇公告摘要的哈希值;
從每篇公告摘要中抽取預設特征并建立特征索引;
根據每兩篇公告摘要的哈希值,采用余弦距離公式計算每兩篇公告摘要的相似距離,得到每對摘要對的相似距離,其中,每對摘要對包括任意兩篇公告摘要;
通過所述特征索引搜索出相似距離大于閾值的摘要對,并將該摘要對確定為相似摘要對;
判斷所述相似摘要對中的預設特征是否相同;
當所述相似摘要對中的預設特征相同時,刪除所述相似摘要對中的任意一條摘要。
3.如權利要求1所述的摘要生成方法,其特征在于,所述對去重處理后的每篇公告摘要進行預處理,得到每篇公告摘要的至少一個分詞包括:
針對去重處理后的每篇公告摘要進行去噪處理,得到第一文本;
對所述第一文本中的預設字段進行詞法分析處理,得到第二文本;
根據預設的自定義詞典對所述第二文本進行切分,得到切分位置;
根據所述切分位置,構建至少一個有向無環圖;
根據所述自定義詞典中的權值計算每個有向無環圖的概率;
將概率最大的有向無環圖對應的切分位置確定為目標切分位置;
根據所述目標切分位置確定至少一個特征詞;
對所述至少一個特征詞進行標準化處理,得到每篇公告摘要的至少一個分詞。
4.如權利要求1所述的摘要生成方法,其特征在于,在將每篇公告摘要的至少一個分詞輸入至預先訓練的參數抽取模型之前,所述摘要生成方法還包括:
采用網絡爬蟲技術獲取至少一篇歷史摘要;
對所述至少一篇歷史摘要進行摘要類別標注,得到每篇歷史摘要對應的摘要類別;
基于所述至少一篇歷史摘要及對應的摘要類別構建數據集;
采用交叉驗證法劃分所述數據集,得到訓練集及驗證集;
對所述訓練集及所述驗證集中的每篇歷史摘要進行分詞處理,得到所述訓練集中的至少一個特征及所述驗證集中的至少一個特征;
將所述訓練集中的至少一個特征輸入到輸入門層進行訓練,得到學習器;
根據所述驗證集中的至少一個特征,對所述學習器進行誤差分析并調整,直至誤差小于配置值時,得到所述參數抽取模型。
5.如權利要求4所述的摘要生成方法,其特征在于,所述基于所述至少一篇歷史摘要及對應的摘要類別構建數據集之后,所述摘要生成方法還包括:
計算每一摘要類別對應的歷史摘要的數量;
判斷所述數量是否小于預設數量;
當所述數量小于所述預設數量時,通過擾動法增加與所述數量對應的歷史摘要的數量。
6.如權利要求1所述的摘要生成方法,其特征在于,所述摘要模板庫中記載至少一個摘要模板的模板信息,所述模板信息包括所述摘要模板、所述摘要模板的摘要類別、所述摘要模板對應的企業類別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳壹賬通智能科技有限公司,未經深圳壹賬通智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010244210.0/1.html,轉載請聲明來源鉆瓜專利網。





