[發明專利]文本摘要的生成方法、裝置、終端設備及存儲介質在審
| 申請號: | 202011228728.1 | 申請日: | 2020-11-06 |
| 公開(公告)號: | CN112347758A | 公開(公告)日: | 2021-02-09 |
| 發明(設計)人: | 張煒 | 申請(專利權)人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/268;G06F40/284;G06F16/33;G06F16/34 |
| 代理公司: | 深圳中一聯合知識產權代理有限公司 44414 | 代理人: | 梁立耀 |
| 地址: | 518000 廣東省深圳市福田*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 摘要 生成 方法 裝置 終端設備 存儲 介質 | ||
1.一種文本摘要的生成方法,其特征在于,包括:
基于待處理文本中單詞的TFIDF權重,對所述待處理文本中所述單詞對應的目標詞向量進行加權,得到所述待處理文本的主題特征和所述待處理文本中每個句子的句子特征;
根據所述主題特征與每個所述句子特征,計算所述待處理文本的文本主題與每個所述句子之間的相關度;
根據與所述文本主題的相關度達到預設值的若干個目標句子,生成所述待處理文本的文本摘要。
2.根據權利要求1所述的文本摘要的生成方法,其特征在于,所述單詞包括主題詞和句子組成詞,所述基于待處理文本中單詞的TFIDF權重,對所述待處理文本中的目標詞向量進行加權,得到所述待處理文本的主題特征和所述待處理文本中每個句子的句子特征,包括:
提取所述待處理文本中主題詞對應的主題詞向量,以及所述句子組成詞的組成詞向量;
基于所述待處理文本中所述主題詞的第一TFIDF權重,對所述主題詞向量進行加權,得到所述待處理文本的主題特征,所述第一TFIDF權重用于表征所述主題詞在所述待處理文本的文本主題中的重要程度;
針對所述待處理文本中的每個句子,基于所述句子中的每個所述句子組成詞的第二TFIDF權重,對所述句子中的每個所述組成詞向量進行加權,得到所述句子的句子特征,所述第二TFIDF權重用于表征所述句子組成詞在所述句子中的重要程度。
3.根據權利要求2所述的文本摘要的生成方法,其特征在于,所述提取所述待處理文本中主題詞對應的主題詞向量,以及所述句子組成詞的組成詞向量,包括:
基于待處理文本的文本標題和目標字段位置,確定所述待處理文本的多個所述主題詞,并對每個所述主題詞進行向量編碼,得到多個所述主題詞向量;
針對所述待處理文本中的每個句子,對所述句子進行分詞,得到組成所述句子的多個所述句子組成詞,并對每個所述句子組成詞進行向量編碼,得到多個所述組成詞向量。
4.根據權利要求2所述的文本摘要的生成方法,其特征在于,所述基于所述待處理文本中所述主題詞的第一TFIDF權重,對所述主題詞對應的主題詞向量進行加權,得到所述待處理文本的主題特征,包括:
基于預設TFIDF算法,計算每個所述主題詞在所述文本主題中的TFIDF原始權重;
基于預設softmax算法,根據所述主題詞的所述TFIDF原始權重,計算每個所述主題詞在所述文本主題中的所述第一TFIDF權重;
基于每個所述主題詞的所述第一TFIDF權重,對每個所述主題詞對應的主題詞向量進行加權求和,得到所述待處理文本的主題特征;
所述第一TFIDF權重的計算公式為:
其中ai表示基于所述softmax算法對第i個所述主題詞的TFIDF原始權重進行歸一化得到的所述第一TFIDF權重,tfi*idfii表示所述第i個所述主題詞的所述TFIDF原始權重,∑i′exp(tfi′*idfi′)表示所有所述主題詞的TFIDF原始權重之和。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國平安人壽保險股份有限公司,未經中國平安人壽保險股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011228728.1/1.html,轉載請聲明來源鉆瓜專利網。





