[發明專利]文本的摘要生成方法、裝置、電子設備及可讀介質在審
| 申請號: | 202110791651.7 | 申請日: | 2021-07-13 |
| 公開(公告)號: | CN113673215A | 公開(公告)日: | 2021-11-19 |
| 發明(設計)人: | 楊鵬;涂曼姝;龔能 | 申請(專利權)人: | 北京搜狗科技發展有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/205;G06K9/62 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 蘇培華 |
| 地址: | 100084 北京市海淀區中關*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 摘要 生成 方法 裝置 電子設備 可讀 介質 | ||
1.一種文本的摘要生成方法,其特征在于,包括:
獲取預設文本,所述預設文本包括若干個第一文本分段;
確定各個所述第一文本分段對應的第一分段摘要;
根據相鄰的至少兩個所述第一文本分段的第一分段摘要之間的相似度,對所述第一文本分段進行處理,獲得若干個第二文本分段;
確定各個所述第二文本分段對應的第二分段摘要;
根據所述第二分段摘要,生成針對所述預設文本的全文摘要。
2.根據權利要求1所述的方法,其特征在于,所述獲取預設文本之后,所述方法還包括:
獲取預設文本對應的全文關鍵詞,并確定所述全文關鍵詞對應的詞匯鏈;
依次從所述預設文本中確定文本長度相同的兩個相鄰語句,獲得所述預設文本對應的多個語句對;
根據所述詞匯鏈,確定同一語句對中兩個相鄰語句之間的差異信息;
若所述差異信息大于或等于預設差異閾值,則從所述同一語句對中兩個相鄰語句之間的連接處進行分段;
生成與所述預設文本對應的若干個第一文本分段。
3.根據權利要求1所述的方法,其特征在于,所述確定各個所述第一文本分段對應的第一分段摘要,包括:
分別將各個所述第一文本分段輸入摘要生成模型,獲得所述第一文本分段對應的第一分段摘要。
4.根據權利要求1所述的方法,其特征在于,所述根據相鄰的至少兩個所述第一文本分段的第一分段摘要之間的相似度,對所述第一文本分段進行處理,獲得若干個第二文本分段,包括:
獲取所述第一文本分段的數量;
確定相鄰兩個第一文本分段的第一分段摘要之間的相似度;
若所述數量大于預設數量閾值,則采用所述第一文本分段的數量與所述預設數量閾值,從所有所述第一文本分段對應的相似度中提取目標相似度;
采用所述目標相似度與預設相似度閾值,生成文本合并閾值;
將相似度大于所述文本合并閾值的第一文本分段進行合并,獲得若干個第二文本分段。
5.根據權利要求4所述的方法,其特征在于,所述根據相鄰的至少兩個所述第一文本分段的第一分段摘要之間的相似度,對所述第一文本分段進行處理,獲得若干個第二文本分段,還包括:
若所述數量小于或等于預設數量閾值,則不進行文本合并。
6.根據權利要求1所述的方法,其特征在于,所述根據相鄰的至少兩個所述第一文本分段的第一分段摘要之間的相似度,對所述第一文本分段進行處理,獲得若干個第二文本分段,包括:
確定相鄰兩個第一文本分段的第一分段摘要之間的相似度;
采用所述第一文本分段的數量與所述預設數量閾值,從所有所述第一文本分段對應的相似度中提取目標相似度;
采用所述目標相似度與預設相似度閾值,生成文本合并閾值;
將相似度大于所述文本合并閾值的第一文本分段進行合并,獲得若干個第二文本分段。
7.根據權利要求4或5或6所述的方法,其特征在于,所述確定相鄰兩個第一文本分段的第一分段摘要之間的相似度,包括:
對所述第一分段摘要進行向量化,獲得所述第一分段摘要的摘要向量;
將相鄰兩個第一文本分段對應的摘要向量進行比對,獲得所述相鄰兩個第一文本分段的第一分段摘要之間的相似度。
8.根據權利要求7所述的方法,其特征在于,所述對所述第一分段摘要進行向量化,獲得所述第一分段摘要的摘要向量,包括:
將所述第一分段摘要輸入相似度判斷模型進行向量映射,獲得所述第一分段摘要的摘要向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京搜狗科技發展有限公司,未經北京搜狗科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110791651.7/1.html,轉載請聲明來源鉆瓜專利網。





