[發明專利]基于知識圖譜的自動化事件標記與分類方法有效
| 申請號: | 202011417045.0 | 申請日: | 2020-12-07 |
| 公開(公告)號: | CN112487306B | 公開(公告)日: | 2023-01-17 |
| 發明(設計)人: | 王曉玲;趙鑫;袁佳豪;王韻弘 | 申請(專利權)人: | 華東師范大學 |
| 主分類號: | G06F16/9536 | 分類號: | G06F16/9536;G06F16/9537;G06F16/951;G06F16/36;G06F16/35;G06F40/289 |
| 代理公司: | 成都行之專利代理事務所(普通合伙) 51220 | 代理人: | 溫利平 |
| 地址: | 200062 上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 知識 圖譜 自動化 事件 標記 分類 方法 | ||
本發明公開了一種基于知識圖譜的自動化事件標記與分類方法,構建所需的領域類別的知識圖譜,爬取預設時間窗口內的社交媒體中發布的各個文本數據,提取關鍵短語并篩選得到突發短語,對突發短語進行聚類得到突發短語簇,每個突發短語簇即為時間窗口內的一個突發事件,然后計算突發事件對應突發短語在各個知識圖譜上的TF?IDF得分,求和得到突發事件在各個知識圖譜上的TF?IDF得分,如果大于預設閾值,則將對應事件標記為該領域類別,從而確定事件的標記和分類。本發明通過對社交媒體中文本數據進行突發短語篩選和聚類,自動確定突發事件,然后再計算突發事件在各個領域類別知識圖譜上的TF?IDF得分,實現對社交媒體事件的自動化精確標記與分類。
技術領域
本發明屬于事件標記與分類技術領域,更為具體地講,涉及一種基于知識圖譜的自動化事件標記與分類方法。
背景技術
近年來,隨著社交媒體的迅速發展,推特、微博等社交媒體逐漸成為人們獲取新聞信息的重要途徑。因此,越來越多的工作開始關注社交媒體信息并對其進行分析,其中一類比較重要的工作就是社交媒體數據的事件抽取工作,即根據社交媒體數據抽取出其所描述的事件。但是對于抽取出的事件(事件關鍵短語、摘要等),難免會出現一些并不關注的事件,因此需要對抽取出的事件進行標記與分類(軍事、政治、地理等若干類別),得到每個事件所屬的類別,從而過濾掉不關注類別的事件,篩選出感興趣的事件。但是如何根據描述事件的少量信息精確獲取其類別,以及如何解決某個事件可能同屬于多個類別的問題,暫未有較好的解決方式,都是需要進一步研究和解決的。
發明內容
本發明的目的在于克服現有技術的不足,提供一種基于知識圖譜的自動化事件標記與分類方法,實現對社交媒體事件的自動化精確標記與分類。
為實現上述發明目的,本發明基于知識圖譜的自動化事件標記與分類方法包括以下步驟:
S1:根據實際需要設置N個領域類別,分別收集每個領域類別的文本數據并構建知識圖譜Gn,n=1,2…,N;
S2:預設時間窗口T,爬取該時間窗口內社交媒體中發布的各個文本數據,對每個文件數據進行關鍵短語提取,將所提取到的關鍵短語構成關鍵短語集合A。分別計算關鍵短語集合A中的每個關鍵短語s的突發程度Ws,計算公式如下:
Ws=ps×log(us)×log(rs)×log(log(fs))
其中,ps表示時間窗口T內關鍵短語s的突發概率,us表示時間窗口T內使用過關鍵短語s的用戶數量,rs表示時間窗口T內包含關鍵短語s的文本被轉發的次數,fs表示時間窗口T內使用關鍵短語s的用戶的關注數目總和;
將所有關鍵短語按照突發程度從高到低進行排序,選擇前K個關鍵短語作為突發短語加入突發短語集合B;
S3:將時間窗口T平均劃分為M個連續不相交的子時間窗口,記第m個子時間窗口為Tm,對于每個突發短語e,e∈B,統計每個子時間窗口Tm內包含該突發短語e的文本集合text(e,m)和文本數量f1(e,m),以及整個時間窗口T內包含該突發短語e的文本數量f2(e),計算每個突發短語e在子時間窗口Tm所占比例d(e,m)=f1(e,m)/f2(e);
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學,未經華東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011417045.0/2.html,轉載請聲明來源鉆瓜專利網。





