[發明專利]摘要生成方法及系統在審
| 申請號: | 202010462115.8 | 申請日: | 2020-05-27 |
| 公開(公告)號: | CN113742476A | 公開(公告)日: | 2021-12-03 |
| 發明(設計)人: | 李泉志;劉英箎;張瓊 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F16/35;G06F16/9536 |
| 代理公司: | 北京成創同維知識產權代理有限公司 11449 | 代理人: | 蔡純;劉靜 |
| 地址: | 英屬開曼群島大*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 摘要 生成 方法 系統 | ||
本公開實施例公開一種摘要生成系統和方法。該摘要生成系統包括:數據預處理模塊,用于獲得事件數據集,事件數據集中包括與事件相關聯的多條數據;事件向量生成模塊,用于根據多條數據中的一條或多條生成事件向量;類別向量生成模塊,用于根據多條數據中的一條或多條生成類型向量;摘要生成模塊,用于根據事件的類別向量和事件向量,生成事件的摘要信息。本公開實施例把事件對應的話題類別加入到摘要生成模型中,從而使針對不同的話題類別生成的摘要信息具有不同的側重點和風格。
技術領域
本公開涉及互聯網技術領域,具體而言,涉及一種摘要生成方法及 系統。
背景技術
隨著互聯網高速發展,各種網絡應用層出不窮,其中社交媒體應用 是一種非常重要且受歡迎的網絡應用。日常常見的社交媒體應用包括各 種社交網站、微博、博客、論壇、百科等。社交媒體應用在全球范圍內 擁有大量用戶,許多事件在發生后就會被用戶發送到社交媒體應用上并 在社交網絡上傳播開來。因而,一些網絡應用會利用社交媒體數據生成事件摘要,并展示給自己的用戶。
在根據社交媒體數據生成事件摘要時,首先需要將具有一定關聯的 社交媒體數據匯總到一個事件數據集(cluster)中,再基于該事件數據 集生成一個事件摘要。目前基于事件數據集生成事件摘要的方法有多種。 例如在事件數據集中,選擇發布最早的社交媒體數據生成事件摘要,這 一方案的缺點是最早發布的社交媒體數據可能并不完整或并不能代表整 個事件。再例如,在社交媒體數據中,選擇被轉發或評論最多的社交媒體 數據生成事件摘要,這一方案的缺點在于轉發或評論最多的可能是由于 它是由大V用戶發出的或轉發的,其文字內容并不一定完整或能代表整 個事件。第三種方案,在社交媒體數據中,基于文字內容中的單詞或字 符串計算每個詞的重要度,并據此計算出最核心的社交媒體數據作為生 成事件摘要的社交媒體數據,此方案的缺點是社交媒體數據中的文字內 容包含有很多噪音,由此得到的最核心的社交媒體數據并不準確。
發明內容
有鑒于此,本公開的目的是提供一種摘要生成方法及系統,生成能 夠體現社交媒體數據集所屬的不同話題類別的摘要信息。
為了達到這個目的,根據本公開的第一方面,本公開實施例提供一 種摘要生成方法,包括:
獲得事件數據集,所述事件數據集中包括與事件相關聯的多條數據;
根據所述多條數據中的一條或多條,獲得所述事件的類別向量和事 件向量;
根據所述事件的類別向量和事件向量,生成所述事件的摘要信息。
可選地,所述獲得事件數據集之后,所述方法還包括:
對所述事件數據集中的多條數據進行過濾,得到過濾后的數據;
相應的,所述根據所述多條數據中的一條或多條,獲得所述事件的 類別向量和事件向量,包括:
根據所述過濾后的數據中的一條或多條,獲得所述事件的類別向量 和事件向量。
可選地,所述對所述事件數據集中的多條數據進行過濾,得到過濾 后的數據,包括:
計算多條數據各自的重要度;
根據所述重要度對多條數據進行排序;
在排序后的多條數據中獲得預定數目的數據作為過濾后的數據。
可選地,所述計算多條數據各自的重要度,包括:
在所述多條數據中選擇任一數據;
獲得所述任一數據中的實體詞和時間表達詞;
根據所述實體詞和時間表達詞計算所述任一數據的重要度。
可選地,所述對所述事件數據集中的多條數據進行過濾,得到過濾 后的數據,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010462115.8/2.html,轉載請聲明來源鉆瓜專利網。





