[發明專利]基于知識圖譜的自動化事件標記與分類方法有效
| 申請號: | 202011417045.0 | 申請日: | 2020-12-07 |
| 公開(公告)號: | CN112487306B | 公開(公告)日: | 2023-01-17 |
| 發明(設計)人: | 王曉玲;趙鑫;袁佳豪;王韻弘 | 申請(專利權)人: | 華東師范大學 |
| 主分類號: | G06F16/9536 | 分類號: | G06F16/9536;G06F16/9537;G06F16/951;G06F16/36;G06F16/35;G06F40/289 |
| 代理公司: | 成都行之專利代理事務所(普通合伙) 51220 | 代理人: | 溫利平 |
| 地址: | 200062 上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 知識 圖譜 自動化 事件 標記 分類 方法 | ||
1.一種基于知識圖譜的自動化事件標記與分類方法,其特征在于,包括以下步驟:
S1:根據實際需要設置N個領域類別,分別收集每個領域類別的文本數據并構建知識圖譜Gn,n=1,2…,N;
S2:預設時間窗口T,爬取該時間窗口內社交媒體中發布的各個文本數據,對每個文件數據進行關鍵短語提取,將所提取到的關鍵短語構成關鍵短語集合A;分別計算關鍵短語集合A中的每個關鍵短語s的突發程度Ws,計算公式如下:
Ws=ps×log(us)×log(rs)×log(log(fs))
其中,ps表示時間窗口T內關鍵短語s的突發概率,us表示時間窗口T內使用過關鍵短語s的用戶數量,rs表示時間窗口T內包含關鍵短語s的文本被轉發的次數,fs表示時間窗口T內使用關鍵短語s的用戶的關注數目總和;
將所有關鍵短語按照突發程度從高到低進行排序,選擇前K個關鍵短語作為突發短語加入突發短語集合B;
S3:將時間窗口T平均劃分為M個連續不相交的子時間窗口,記第m個子時間窗口為Tm,對于每個突發短語e,e∈B,統計每個子時間窗口Tm內包含該突發短語e的文本集合text(e,m)和文本數量f1(e,m),以及整個時間窗口T內包含該突發短語e的文本數量f2(e),計算每個突發短語e在子時間窗口Tm所占比例d(e,m)=f1(e,m)/f2(e);
記兩個突發短語分別為ea、eb,首先分別計算文本集合text(ea,m)和文本集合text(eb,m)之間的相似度sim(text(ea,m),text(eb,m)),然后采用以下公式計算兩個突發短語的相似度S(ea,eb):
根據突發短語間的相似度對突發短語進行聚類,得到K個突發短語簇Ck,k=1,2,…,K,每個突發短語簇Ck即為時間窗口T內的一個突發事件;
S4:對于突發短語簇Ck所對應的突發事件,根據步驟S1所構建的各個領域類別知識圖譜Gn所涵蓋的文本數據,計算突發短語簇Ck中每個突發短語v在各個領域類別知識圖譜Gn上的TF-IDF得分score(v,n),再進行求和得到突發短語簇Ck所對應突發事件在各個領域類別知識圖譜Gn上的TF-IDF得分score(k,n):
S5:預先設定TF-IDF得分閾值對于突發短語簇Ck所對應的突發事件,如果其在領域類別知識圖譜Gn上的TF-IDF得分score(k,n)大于閾值則將該突發事件標記為該領域類別,從而確定事件的標記和分類。
2.根據權利要求1所述的自動化事件標記與分類方法,其特征在于,所述步驟S3中文本集合相似度采用TF-IDF相似度,計算方法包括以下步驟:
1)分別對兩個文本集合進行分詞,對得到的兩個單詞集合進行合并得到單詞集合φ;
2)對于單詞集合φ中的每個單詞,分別計算該單詞在兩個文本集合中的TF-IDF值pi,1、pi,2,i=1,2,…,|φ|,|φ|表示單詞集合φ中單詞數量;
3)根據每個單詞的TF-IDF值構建得到每個文本集合對應的TF-IDF向量P1=(p1,1,p2,1,…p|φ|,1)、P2=(p1,2,p2,2,…p|φ|,2);
4)計算兩個文本集合對應的TF-IDF向量之間的余弦相似度,即作為文本集合之間的相似度。
3.根據權利要求1所述的自動化事件標記與分類方法,其特征在于,所述步驟S3中突發短語的聚類采用Jarvis-Patrick聚類算法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學,未經華東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011417045.0/1.html,轉載請聲明來源鉆瓜專利網。





