[發(fā)明專利]一種面向持續(xù)性社會(huì)事件的知識(shí)圖譜的構(gòu)建方法在審
| 申請(qǐng)?zhí)枺?/td> | 202010260822.9 | 申請(qǐng)日: | 2020-04-03 |
| 公開(公告)號(hào): | CN113495951A | 公開(公告)日: | 2021-10-12 |
| 發(fā)明(設(shè)計(jì))人: | 榮杰 | 申請(qǐng)(專利權(quán))人: | 源析(青島)信息技術(shù)有限公司 |
| 主分類號(hào): | G06F16/332 | 分類號(hào): | G06F16/332;G06F16/36;G06F16/951;G06F40/284 |
| 代理公司: | 北京康思博達(dá)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11426 | 代理人: | 范國鋒;劉冬梅 |
| 地址: | 266073 山東省青島*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面向 持續(xù)性 社會(huì) 事件 知識(shí) 圖譜 構(gòu)建 方法 | ||
1.一種面向持續(xù)性社會(huì)事件的知識(shí)圖譜的構(gòu)建方法,其特征在于,所述方法包括:
獲取原始數(shù)據(jù);
確定主體事件及關(guān)鍵詞,得到基礎(chǔ)語料庫;
基于所述基礎(chǔ)語料庫,獲得貼合主體事件的數(shù)據(jù);
形成新的關(guān)鍵詞,更新基礎(chǔ)語料庫。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,通過爬蟲技術(shù)實(shí)時(shí)獲取原始數(shù)據(jù),所述原始數(shù)據(jù)包括半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),所述原始數(shù)據(jù)為與社會(huì)性事件相關(guān)的數(shù)據(jù),優(yōu)選為社會(huì)資訊文檔數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基礎(chǔ)語料庫包括所述關(guān)鍵詞,基于所述基礎(chǔ)語料庫,對(duì)原始數(shù)據(jù)進(jìn)行查詢清洗,獲得貼合主體事件的數(shù)據(jù)。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)獲得的貼合主體事件的數(shù)據(jù)進(jìn)行關(guān)鍵詞提取,確定新的關(guān)鍵詞,所述關(guān)鍵詞的提取方法為TF-IDF方法、TextRank方法、ExpandRank方法中的一種或幾種,優(yōu)選地,所述新的關(guān)鍵詞通過TF-IDF方法確定,
優(yōu)選地,所述通過TF-IDF方法確定新的關(guān)鍵詞的過程包括:
對(duì)所述貼合主體事件的數(shù)據(jù)進(jìn)行分詞處理,獲得詞及相應(yīng)的詞頻;
計(jì)算逆文檔頻率;
計(jì)算TF-IDF值。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,根據(jù)TF-IDF值由高到低進(jìn)行排序,保留TF-IDF值高于設(shè)定閾值的詞,確定新的關(guān)鍵詞,將新的關(guān)鍵詞添加到基礎(chǔ)語料庫中,對(duì)基礎(chǔ)語料庫進(jìn)行更新,優(yōu)選地,基于所述新的關(guān)鍵詞,溯源所述新的關(guān)鍵詞的原始社會(huì)性資訊文檔數(shù)據(jù),基于標(biāo)本文檔,需要對(duì)多篇社會(huì)性資訊文檔進(jìn)行相似度分析,按照相似度排序,優(yōu)選地,根據(jù)余弦相似度方法,判斷兩篇文檔的相似度,更優(yōu)選地,兩篇文檔的相似度分析過程包括:
根據(jù)TF-IDF方法,確定兩篇文檔的關(guān)鍵詞;
分別確定兩篇文檔中的關(guān)鍵詞的詞頻;
分別形成兩篇文檔的詞頻向量;
計(jì)算兩個(gè)詞頻向量的余弦相似度。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,將多篇文檔數(shù)據(jù)按照相似度由高到低進(jìn)行排序,優(yōu)選地,標(biāo)記相似度最高的文檔為新的標(biāo)本文檔。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述方法還包括:更新基礎(chǔ)語料庫后,根據(jù)熱度熱點(diǎn)聚類的方式確定關(guān)鍵詞,進(jìn)而確定新的分支事件,優(yōu)選地,所述熱度熱點(diǎn)聚類的方式為根據(jù)話題熱度確定,所述話題熱度的影響因素包括報(bào)道速度、報(bào)道相似度以及報(bào)道權(quán)威度。
8.一種知識(shí)圖譜的構(gòu)建裝置,其特征在于,所述裝置包括:
獲取模塊,用于獲取原始數(shù)據(jù),所述原始數(shù)據(jù)為與社會(huì)性事件相關(guān)的數(shù)據(jù);
預(yù)處理模塊,用于根據(jù)主體事件及關(guān)鍵詞對(duì)原始數(shù)據(jù)進(jìn)行查詢清洗,獲得貼合主體事件的數(shù)據(jù);
更新模塊,用于從貼合主體事件的數(shù)據(jù)中確定新的關(guān)鍵詞,并更新關(guān)鍵詞集合,確定分支事件;
構(gòu)建模塊,用于確定主體事件與分支之間的關(guān)系,構(gòu)建知識(shí)圖譜。
9.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,當(dāng)所述計(jì)算機(jī)程序產(chǎn)品中的指令處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7之一所述的方法。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)包括一個(gè)或多個(gè)程序,所述一個(gè)或多個(gè)程序包括指令,所述指令當(dāng)被計(jì)算機(jī)執(zhí)行時(shí)使得所述計(jì)算機(jī)執(zhí)行如權(quán)利要求1-7之一所述的方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于源析(青島)信息技術(shù)有限公司,未經(jīng)源析(青島)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010260822.9/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 利用任何負(fù)載下的競(jìng)爭(zhēng)資源以促進(jìn)單個(gè)或多級(jí)設(shè)備的期望帶寬的方法和系統(tǒng)
- 執(zhí)行半持續(xù)性資源的數(shù)據(jù)傳輸?shù)姆椒捌湎嚓P(guān)通信裝置
- 動(dòng)態(tài)可持續(xù)性搜索引擎
- 動(dòng)態(tài)可持續(xù)性因素管理
- 用于提供通用持續(xù)性云服務(wù)的系統(tǒng)、方法和計(jì)算機(jī)程序產(chǎn)品
- 一種跨業(yè)務(wù)持續(xù)性實(shí)現(xiàn)方法和設(shè)備
- 持續(xù)性資產(chǎn)管理系統(tǒng)
- 高級(jí)持續(xù)性威脅檢測(cè)
- 一種海面高度持續(xù)性預(yù)測(cè)算法
- 具有由持續(xù)性處理造成的經(jīng)改進(jìn)的噪聲性能的超聲系統(tǒng)
- 一種事件通訊裝置及方法
- 動(dòng)態(tài)權(quán)重事件處理系統(tǒng)和方法
- 攻擊檢測(cè)裝置和攻擊檢測(cè)方法
- 基于Unity的事件管理方法及系統(tǒng)
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 熱點(diǎn)事件確定方法及裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種樹狀模型中節(jié)點(diǎn)的連接方法及其模型、計(jì)算機(jī)裝置和可讀存儲(chǔ)介質(zhì)
- 一種事件處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





