[發明專利]一種文本摘要生成方法及系統在審
| 申請號: | 201811088867.1 | 申請日: | 2018-09-18 |
| 公開(公告)號: | CN110929022A | 公開(公告)日: | 2020-03-27 |
| 發明(設計)人: | 李衛;白子龍 | 申請(專利權)人: | 阿基米德(上海)傳媒有限公司 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F40/211;G06F40/30;G06F40/289 |
| 代理公司: | 上海金盛協力知識產權代理有限公司 31242 | 代理人: | 鄭鳴捷 |
| 地址: | 200051 上海市長*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 摘要 生成 方法 系統 | ||
1.一種文本摘要生成方法,該方法包括以下步驟:
a.對提取摘要的原文本進行預處理;
b.基于標準TextRank算法提取出原文本中的關鍵句以及對應的關鍵度;
c.采用分詞工具對所提取的關鍵句進行分詞后、過濾掉預設的停用詞,基于word2vec模型對過濾后的分詞進行詞嵌入處理,根據關鍵句中分詞的相似度計算兩兩關鍵句之間的語義相似度;
d.刪除相似度超過相似度閾值的兩關鍵句中關鍵度較低的一句,實現關鍵句過濾;
e.將過濾后的關鍵句所在語意單元作為新的關鍵句,排序后生成摘要。
2.如權利要求1所述的方法,其中步驟a中所述預處理具體為:去除原文本中空格符、換行符等非文本內容后,對剩余的文本內容進行文本編碼。
3.如權利要求1所述的方法,其中步驟d具體實現為:設定相似度閾值,對于語義相似度超過該閾值的兩相似關鍵句,刪除其中關鍵度較低的關鍵句。
4.如權利要求2所述的方法,其中文本編碼采用的編碼方法包括:UTF-8、GB2312、GBK、ASCII的中、英文編碼。
5.如權利要求1所述的方法,其中步驟e具體實現為:根據中文結束符標識將原文本劃分為多個語義單元;提取出包含過濾后的關鍵句的語義單元并去重后作為新的關鍵句,根據所述新的關鍵句在原文中出現的順序對新的關鍵句排序組成最終摘要。
6.如權利要求5所述的方法,其中、所述中文結束標識符至少包括:“。”、“?”、“!”、“?”。
7.一種文本摘要生成系統,該系統包括:文本預處理模塊、關鍵句抽取模塊、關鍵句語義相似度計算模塊、關鍵句過濾模塊以及文本摘要完成模塊;其中
文本預處理模塊,用于對需要提取摘要的原文本進行預處理;
關鍵句抽取模塊,采用標準TextRank算法提取出原文本中的關鍵句以及對應的關鍵度;
關鍵句語義相似度計算模塊,其采用分詞工具對所提取的關鍵句進行分詞后、過濾掉預設的停用詞,然后基于word2vec模型對過濾后的分詞進行詞嵌入處理,根據詞嵌入處理結果計算兩兩關鍵句分詞之間語義相關性進而得到所述兩兩關鍵句之間的語義相似度;
關鍵句過濾模塊,用于根據所述兩兩關鍵句之間的語義相似度及對應的關鍵度,去除語意相似度超出預設閾值的兩關鍵句中關鍵度較低的關鍵句;
文本摘要完成模塊,用于將過濾后的關鍵句所在語意單元作為新的關鍵句,并按照新關鍵句在文本中出現的先后順序順次鏈接生成文本摘要。
8.如權利要求7所述的系統,其中文本預處理模塊具體實現為:去除原文本中的空格符、換行符等非文本內容后對剩余的文本內容進行文本編碼。
9.如權利要求7所述的系統,其中關鍵句過濾模塊具體實現為:設定相似度閾值,對于語義相似度超過該閾值的兩相似關鍵句,刪除關鍵度較低的關鍵句。
10.如權利要求7所述的系統,其中文本摘要完成模塊具體實現為:根據中文結束符標識將原文本劃分為多個語義單元;提取出包含過濾后的關鍵句的語義單元去重后作為新的關鍵句,根據所述新的關鍵句在原文中出現的順序將新的關鍵句排序組成最終摘要。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿基米德(上海)傳媒有限公司,未經阿基米德(上海)傳媒有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811088867.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:微型空調
- 下一篇:泡沫驅地層壓力的獲取方法及裝置





