[發(fā)明專利]基于極大團(tuán)發(fā)現(xiàn)的網(wǎng)絡(luò)熱點(diǎn)話題檢測方法及裝置無效
| 申請?zhí)枺?/td> | 201110278619.5 | 申請日: | 2011-09-20 |
| 公開(公告)號: | CN102346766A | 公開(公告)日: | 2012-02-08 |
| 發(fā)明(設(shè)計(jì))人: | 肖波;藺志青;郭軍 | 申請(專利權(quán))人: | 北京郵電大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 極大 發(fā)現(xiàn) 網(wǎng)絡(luò) 熱點(diǎn)話題 檢測 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及文本信息處理范疇中的網(wǎng)絡(luò)信息分析與數(shù)據(jù)挖掘技術(shù),尤其涉及一種基于極大團(tuán)發(fā)現(xiàn)的熱點(diǎn)話題檢測方法及裝置。
背景技術(shù)
互聯(lián)網(wǎng)日漸成為輿情產(chǎn)生和傳播的主要場所,很多人在網(wǎng)絡(luò)上主動表達(dá)自己的觀點(diǎn)和看法。由于網(wǎng)絡(luò)本身具有虛擬性、隱藏性、滲透性和隨意性等特點(diǎn),使得網(wǎng)絡(luò)輿情的社會影響力越來越大,甚至?xí)绊憞抑卮鬀Q策。因此,各國政府與軍隊(duì)都高度關(guān)注網(wǎng)絡(luò)輿情的研究,以便及時對熱點(diǎn)、焦點(diǎn)與敏感話題做出反應(yīng)。
網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)是網(wǎng)絡(luò)輿論管理需要解決的首要問題,最早在該領(lǐng)域展開研究的是由美國國防部先進(jìn)研究項(xiàng)目局支持的話題檢測與跟蹤(Topic?detection?and?tracking,簡稱TDT)項(xiàng)目,該項(xiàng)目在話題檢測方面致力于新事件檢測以及事件跟蹤方面的研究。互聯(lián)網(wǎng)中的Web信息資源,如新聞網(wǎng)站、論壇、博客及微博,匯集了各類事件和新聞的報道和輿論評價,是熱點(diǎn)話題檢測的重要信息平臺。
隨著TDT項(xiàng)目的研究進(jìn)展,國內(nèi)外關(guān)于話題發(fā)現(xiàn)的相應(yīng)研究成果逐漸豐富起來。熱點(diǎn)話題檢測本質(zhì)上屬于熱點(diǎn)話題聚類。目前話題聚類的方法主要有兩大類,一類是通過向量空間模型,計(jì)算各個新聞或帖子的距離,或潛在的主題模型進(jìn)行聚類,另一類是直接通過統(tǒng)計(jì)詞頻產(chǎn)生熱點(diǎn)詞集合,再進(jìn)行合理聚類,產(chǎn)生的不同熱點(diǎn)詞集合來表示不同的熱點(diǎn)話題。
第一類聚類方法在處理長文本時比較有效,但不能保證話題發(fā)現(xiàn)的實(shí)時性。由于互聯(lián)網(wǎng)信息很多是短文本,包含的詞很少,因此數(shù)據(jù)具有稀疏性。針對這類數(shù)據(jù)采用聚類方法效果不盡人意。
第二類話題檢測方法則是直接統(tǒng)計(jì)詞或重復(fù)串的出現(xiàn)次數(shù),用頻繁詞集合來表達(dá)熱點(diǎn)話題,因此該類方法對文本長度不敏感,但查準(zhǔn)率有待改善。
此外,也有研究者提出了不同于以上兩類方法的檢測技術(shù)。例如,有人提出了采用拓?fù)鋭莸姆椒ㄟM(jìn)行熱點(diǎn)話題聚類,通過評價結(jié)點(diǎn)的重要性來判別網(wǎng)絡(luò)熱點(diǎn)及演化趨勢。也有研究提出采用演化理論來研究熱點(diǎn)話題聚類,首先通過增量單邊聚類方法獲得候選話題,然后使用演化理論計(jì)算話題熱度,最后根據(jù)定義參數(shù)進(jìn)行排序,得到BBS熱點(diǎn)話題。這些方法對于長短不一的互聯(lián)網(wǎng)信息,效果較差。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)存在的問題,本發(fā)明的目的是提供一種基于極大團(tuán)發(fā)現(xiàn)的熱點(diǎn)話題檢測方法及裝置。
為達(dá)到上述目的,本發(fā)明提出的基于極大團(tuán)發(fā)現(xiàn)的網(wǎng)絡(luò)熱點(diǎn)話題檢測方法包括下列步驟:
數(shù)據(jù)采集步驟:實(shí)時采集網(wǎng)絡(luò)新聞網(wǎng)站、論壇、博客、微博數(shù)據(jù);
熱點(diǎn)詞對集合構(gòu)建步驟:對采集的數(shù)據(jù)進(jìn)行分詞、詞頻統(tǒng)計(jì)等處理,發(fā)現(xiàn)所有的熱點(diǎn)詞對,構(gòu)建熱點(diǎn)詞對集合;
熱點(diǎn)詞編號步驟:將每個熱點(diǎn)詞用唯一的編號進(jìn)行表示;
極大團(tuán)挖掘步驟:將熱點(diǎn)詞對集合看作無向圖,對其進(jìn)行挖掘,得到所有的極大團(tuán);
熱點(diǎn)話題表示步驟:將每個極大團(tuán)變換為一個詞組合,代表一個熱點(diǎn)話題。
數(shù)據(jù)采集步驟中,實(shí)時采集網(wǎng)絡(luò)數(shù)據(jù)包括:新聞網(wǎng)站中每條新聞的標(biāo)題、正文、發(fā)布時間;論壇中每條帖子的標(biāo)題,正文、發(fā)布時間;博客中每篇博客文章的標(biāo)題、正文、關(guān)鍵字和發(fā)布時間;微博中用戶的每條博文內(nèi)容和發(fā)布時間。采集步驟進(jìn)一步包含以下子步驟:配置步驟,即設(shè)置進(jìn)行采集的種子URL和每個種子匹配采集數(shù)據(jù)用的正則表達(dá)式;下載步驟,即通過http協(xié)議應(yīng)用多線程并行采集種子URL對應(yīng)的html網(wǎng)頁;匹配步驟,對采集到的網(wǎng)頁通過配置到正則表達(dá)式獲得標(biāo)題文本、正文文本、關(guān)鍵字、發(fā)布時間等數(shù)據(jù),構(gòu)成結(jié)構(gòu)化的數(shù)據(jù);過濾步驟,刪除先前已經(jīng)采集過的數(shù)據(jù),保存本時間段采集的數(shù)據(jù),以供后續(xù)步驟使用;上述步驟完成后,等待設(shè)置的時間間隔后,重復(fù)下載步驟、匹配步驟和過濾步驟。
熱點(diǎn)詞對集合構(gòu)建步驟完成對采集的數(shù)據(jù)進(jìn)行分詞、詞頻統(tǒng)計(jì)等處理,進(jìn)一步包含以下子步驟:構(gòu)建動詞與名詞庫步驟;構(gòu)建命名實(shí)體名稱詞庫步驟;構(gòu)建動態(tài)詞庫步驟;分詞操作步驟;詞頻統(tǒng)計(jì)步驟;熱點(diǎn)詞集合構(gòu)建步驟;詞對共現(xiàn)頻度統(tǒng)計(jì)步驟;熱點(diǎn)詞對生成步驟。
熱點(diǎn)詞編號步驟中將每個熱點(diǎn)詞用唯一編號表示,編號可以是阿拉伯?dāng)?shù)字,或其他編號形式。
極大團(tuán)挖掘步驟中將熱點(diǎn)詞對集合中的每個熱點(diǎn)詞編號作為頂點(diǎn),詞對作為兩頂點(diǎn)的邊,將熱點(diǎn)詞對集合構(gòu)成無向圖。對該圖進(jìn)行極大團(tuán)挖掘,挖掘步驟包含以下子步驟:
連通分量生成步驟:遍歷無向圖,產(chǎn)生圖的所有連通分量。
初始化步驟:初始化最終極大團(tuán)集合T為空集。
選取步驟:取該圖中的第一個連通分量。
挖掘步驟:對該連通分量進(jìn)行處理,得到所有的極大團(tuán),加入到最終極大團(tuán)集合T。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京郵電大學(xué),未經(jīng)北京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110278619.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 知識發(fā)現(xiàn)裝置、知識發(fā)現(xiàn)程序和知識發(fā)現(xiàn)方法
- 規(guī)則發(fā)現(xiàn)程序、規(guī)則發(fā)現(xiàn)處理和規(guī)則發(fā)現(xiàn)裝置
- 發(fā)現(xiàn)協(xié)議
- 對等發(fā)現(xiàn)
- 小區(qū)發(fā)現(xiàn)
- 漏洞發(fā)現(xiàn)裝置、漏洞發(fā)現(xiàn)方法以及漏洞發(fā)現(xiàn)程序
- 使用發(fā)現(xiàn)節(jié)點(diǎn)的設(shè)備發(fā)現(xiàn)
- 漏洞發(fā)現(xiàn)裝置、漏洞發(fā)現(xiàn)方法以及存儲介質(zhì)
- 用于提供虛擬場景的裝置及方法
- 接入語音服務(wù)的方法、裝置和數(shù)據(jù)載體
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





