[發(fā)明專利]熱點(diǎn)事件發(fā)現(xiàn)方法、裝置、設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202010033828.2 | 申請日: | 2020-01-13 |
| 公開(公告)號: | CN111291182A | 公開(公告)日: | 2020-06-16 |
| 發(fā)明(設(shè)計(jì))人: | 鄭勇升 | 申請(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/951;G06F40/126;G06F40/242;G06F40/289 |
| 代理公司: | 北京市京大律師事務(wù)所 11321 | 代理人: | 劉挽瀾 |
| 地址: | 518033 廣東省深圳市福田區(qū)福*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 熱點(diǎn) 事件 發(fā)現(xiàn) 方法 裝置 設(shè)備 存儲 介質(zhì) | ||
1.一種熱點(diǎn)事件發(fā)現(xiàn)方法,其特征在于,所述熱點(diǎn)事件發(fā)現(xiàn)方法包括以下步驟:
采用網(wǎng)絡(luò)爬蟲技術(shù)采集指定網(wǎng)站發(fā)布的文章;
基于爬取的文章數(shù)量,確定粗略聚類的類別數(shù)量,并使用預(yù)置聚類算法對所有文章進(jìn)行聚類,得到粗略聚類結(jié)果;
從所述粗略聚類結(jié)果中依次取同一類別內(nèi)的文章兩兩配對,以構(gòu)造文本對;
將各文本對進(jìn)行預(yù)處理后依次輸入預(yù)置的文本對模型進(jìn)行處理,輸出任意兩篇文章的相似度以及是否屬于同一事件;
以各文章作為圖的頂點(diǎn)、將同一事件的文章兩兩連線作為圖的邊、以文章之間的相似度作為對應(yīng)邊的權(quán)重,構(gòu)造事件圖;
對所述事件圖進(jìn)行分割,得到多個子事件圖,其中,同一子事件圖中所有頂點(diǎn)對應(yīng)文章為同一熱點(diǎn)事件對應(yīng)的文章。
2.如權(quán)利要求1所述的熱點(diǎn)事件發(fā)現(xiàn)方法,其特征在于,在所述采用網(wǎng)絡(luò)爬蟲技術(shù)采集指定網(wǎng)站發(fā)布的文章的步驟之前,還包括:
獲取用于訓(xùn)練文本對模型的訓(xùn)練樣本,其中,所述訓(xùn)練樣本為文本對且包括正樣本與負(fù)樣本,一個文本對包含有兩篇文章,正樣本為取同一事件內(nèi)不同文章兩兩配對得到,負(fù)樣本為取不同事件的文章之間兩兩配對并取抽樣以及取相似事件之間的文章兩兩配對得到;
對各文本對中兩篇文章進(jìn)行分詞處理,得到多個獨(dú)立的詞或字;
采用預(yù)置詞典或字典,對各詞或字進(jìn)行編碼,得到各文本對中兩篇文章對應(yīng)的字符編碼向量;
將各文本對中兩篇文章對應(yīng)的字符編碼向量輸入嵌入層以轉(zhuǎn)換為矩陣向量,并將同一文本對中兩篇文章對應(yīng)的矩陣向量分別輸入兩個獨(dú)立且同層的卷積層進(jìn)行特征提??;
將兩個卷積層各自提取到的特征分別輸入池化層,以計(jì)算同一文本對中兩篇文章對應(yīng)特征之間的相似度以及對提取到的特征進(jìn)行降維;
將各文本對中兩篇文章對應(yīng)特征之間的相似度以及降維后的特征輸入全連接層進(jìn)行分類與歸一化處理,得到所述文本對模型。
3.如權(quán)利要求1所述的熱點(diǎn)事件發(fā)現(xiàn)方法,其特征在于,所述對所述事件圖進(jìn)行分割,得到多個子事件圖包括:
對所述事件圖進(jìn)行初始化,以將每個頂點(diǎn)劃分到不同的分區(qū)內(nèi),其中,初始的分區(qū)個數(shù)與頂點(diǎn)個數(shù)相同;
逐一對每一頂點(diǎn)進(jìn)行分區(qū)試探劃分,以將每個頂點(diǎn)劃分到與該頂點(diǎn)相鄰的鄰居頂點(diǎn)所在分區(qū)內(nèi),并計(jì)算各頂點(diǎn)劃分前后對應(yīng)的所述事件圖的模塊度變化值,并記錄最大模塊度變化值對應(yīng)的鄰居頂點(diǎn);
若最大模塊度變化值大于0,則將對應(yīng)頂點(diǎn)劃分到最大模塊度變化值對應(yīng)的鄰居頂點(diǎn)所在分區(qū)內(nèi),否則放棄本次頂點(diǎn)試探劃分;
重復(fù)執(zhí)行分區(qū)試探劃分的處理流程,直至所有頂點(diǎn)對應(yīng)分區(qū)不再變化;
將所有在同一分區(qū)內(nèi)的頂點(diǎn)壓縮成一個新的頂點(diǎn)以構(gòu)建新的事件圖,并將同一分區(qū)內(nèi)各頂點(diǎn)之間的邊的權(quán)重設(shè)置為新頂點(diǎn)的環(huán)的權(quán)重以及將不同分區(qū)間的邊的權(quán)重設(shè)置為各新頂點(diǎn)間的邊的權(quán)重;
重復(fù)執(zhí)行構(gòu)建新的事件圖的處理流程,直到整個事件圖的模塊度不再發(fā)生變化,其中,一個分區(qū)對應(yīng)為一個子事件圖。
4.如權(quán)利要求1所述的熱點(diǎn)事件發(fā)現(xiàn)方法,其特征在于,所述基于爬取的文章數(shù)量,確定粗略聚類的類別數(shù)量,并使用預(yù)置聚類算法對所有文章進(jìn)行聚類,得到粗略聚類結(jié)果包括:
基于爬取的文章數(shù)量,確定粗略聚類的類別數(shù)量;
對爬取的文章進(jìn)行分詞處理,得到多個獨(dú)立的詞或字;
將分詞處理后的詞或字轉(zhuǎn)換為詞向量,并根據(jù)所述類別數(shù)量,采用預(yù)置聚類算法對爬取的各文章對應(yīng)的詞向量進(jìn)行粗略聚類,得到粗略聚類結(jié)果。
5.如權(quán)利要求1-4中任一項(xiàng)所述的熱點(diǎn)事件發(fā)現(xiàn)方法,其特征在于,在所述從所述粗略聚類結(jié)果中依次取同一類別內(nèi)的文章兩兩配對,以構(gòu)造文本對的步驟之后,還包括:
獲取同一類別中構(gòu)造好的各文本對中文章的標(biāo)題;
判斷同一文本對中文章的標(biāo)題是否相同;
若相同,則保留對應(yīng)文本對,否則剔除對應(yīng)文本對。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010033828.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 使用多機(jī)器學(xué)習(xí)核的光刻熱點(diǎn)檢測
- 一種釣魚熱點(diǎn)的檢測方法及系統(tǒng)
- 一種基于大數(shù)據(jù)識別釣魚熱點(diǎn)的方法和設(shè)備
- 一種快速分享熱點(diǎn)的方法及設(shè)備
- 一種信息獲取的方法、設(shè)備以及介質(zhì)
- 一種熱點(diǎn)切換的方法及設(shè)備
- 熱點(diǎn)開啟方法、裝置、終端設(shè)備及存儲介質(zhì)
- 熱點(diǎn)區(qū)域定位方法、裝置、計(jì)算機(jī)設(shè)備及存儲介質(zhì)
- 一種城市交通出行問題熱點(diǎn)分級方法及裝置
- 一種基于無線熱點(diǎn)實(shí)現(xiàn)定位的方法與設(shè)備
- 一種事件通訊裝置及方法
- 動態(tài)權(quán)重事件處理系統(tǒng)和方法
- 攻擊檢測裝置和攻擊檢測方法
- 基于Unity的事件管理方法及系統(tǒng)
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 熱點(diǎn)事件確定方法及裝置、計(jì)算機(jī)設(shè)備及存儲介質(zhì)
- 一種樹狀模型中節(jié)點(diǎn)的連接方法及其模型、計(jì)算機(jī)裝置和可讀存儲介質(zhì)
- 一種事件處理方法、裝置、設(shè)備及存儲介質(zhì)
- 知識發(fā)現(xiàn)裝置、知識發(fā)現(xiàn)程序和知識發(fā)現(xiàn)方法
- 規(guī)則發(fā)現(xiàn)程序、規(guī)則發(fā)現(xiàn)處理和規(guī)則發(fā)現(xiàn)裝置
- 發(fā)現(xiàn)協(xié)議
- 對等發(fā)現(xiàn)
- 小區(qū)發(fā)現(xiàn)
- 漏洞發(fā)現(xiàn)裝置、漏洞發(fā)現(xiàn)方法以及漏洞發(fā)現(xiàn)程序
- 使用發(fā)現(xiàn)節(jié)點(diǎn)的設(shè)備發(fā)現(xiàn)
- 漏洞發(fā)現(xiàn)裝置、漏洞發(fā)現(xiàn)方法以及存儲介質(zhì)
- 用于提供虛擬場景的裝置及方法
- 接入語音服務(wù)的方法、裝置和數(shù)據(jù)載體





