[發(fā)明專利]一種輿情熱點(diǎn)動(dòng)態(tài)檢測(cè)方法無(wú)效
| 申請(qǐng)?zhí)枺?/td> | 201310069181.9 | 申請(qǐng)日: | 2013-03-05 |
| 公開(公告)號(hào): | CN103116651A | 公開(公告)日: | 2013-05-22 |
| 發(fā)明(設(shè)計(jì))人: | 李千目;劉婷;侯君;戚湧 | 申請(qǐng)(專利權(quán))人: | 南京理工大學(xué)常熟研究院有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 215513 江蘇省蘇州市*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 輿情 熱點(diǎn) 動(dòng)態(tài) 檢測(cè) 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種輿情熱點(diǎn)動(dòng)態(tài)檢測(cè)方法,屬于網(wǎng)絡(luò)信息處理技術(shù)領(lǐng)域。?
背景技術(shù)
網(wǎng)絡(luò)輿情,是指在互聯(lián)網(wǎng)上,圍繞某些中介性社會(huì)事件的發(fā)生、發(fā)展和變化,網(wǎng)民對(duì)社會(huì)管理者產(chǎn)生和持有的社會(huì)政治態(tài)度,是網(wǎng)民關(guān)于社會(huì)中各種現(xiàn)象、問(wèn)題所表達(dá)的信念、態(tài)度、意見(jiàn)和情緒等表現(xiàn)的總和。由于網(wǎng)絡(luò)媒體的參與門檻低,使得網(wǎng)民的社會(huì)階層分布廣泛,反映出當(dāng)前社會(huì)各個(gè)階層民眾的思想動(dòng)態(tài)。?
網(wǎng)絡(luò)媒體能夠反映社會(huì)民意的社會(huì)輿情,但同時(shí)一些不負(fù)責(zé)任的虛假信息、極端言論以及失實(shí)的政治輿論也在傳播,我國(guó)當(dāng)前處于一個(gè)矛盾高發(fā)的時(shí)代,所面臨的網(wǎng)絡(luò)輿情檢測(cè)與分析形勢(shì)嚴(yán)峻,能夠正確有效地把握危機(jī)事件,有利于維護(hù)社會(huì)的穩(wěn)定、和諧發(fā)展,因此,在面對(duì)論壇、博客、微博等網(wǎng)絡(luò)媒體中海量數(shù)據(jù)的時(shí)候,如何及時(shí)、準(zhǔn)確地從互聯(lián)網(wǎng)中檢測(cè)到熱點(diǎn)的輿情信息,快速準(zhǔn)確地制止危及國(guó)家和社會(huì)穩(wěn)定的不穩(wěn)定因素以及引導(dǎo)正面輿論,促進(jìn)和諧社會(huì)建設(shè),保障經(jīng)濟(jì)持續(xù)穩(wěn)定發(fā)展具有重大的意義。?
輿情熱點(diǎn)檢測(cè)技術(shù)是指從不斷涌現(xiàn)的網(wǎng)絡(luò)輿情中即時(shí)地獲得新發(fā)生的熱點(diǎn)信息,并對(duì)其進(jìn)行持續(xù)追蹤,主要依靠主題檢測(cè)與追蹤技術(shù)來(lái)實(shí)現(xiàn)。其中,文本聚類技術(shù)是主題檢測(cè)技術(shù)的基礎(chǔ),包括單遍聚類、k-means聚類、層次凝聚聚類、概率模型。?
現(xiàn)有的主題檢測(cè)技術(shù)的主要步驟為:(1)從數(shù)據(jù)源讀入一篇報(bào)道,數(shù)據(jù)源可以是多個(gè),包括內(nèi)容、時(shí)間等其它信息;(2)采用質(zhì)心比較策略或最近鄰居比較策略,確定與當(dāng)前報(bào)道最接近的主題;(3)判斷報(bào)道與現(xiàn)有主題的相似度,若報(bào)道能歸入某個(gè)主題,則調(diào)整該主題,若報(bào)道無(wú)法歸入現(xiàn)有主題,則列為新主題;(4)輸出檢測(cè)到的主題,將主題中的特征詞作為主題描述。?
由于現(xiàn)有主題檢測(cè)技術(shù)主要考慮在固定的小數(shù)據(jù)集合上的錯(cuò)檢率和漏檢率,在實(shí)輿情熱點(diǎn)自動(dòng)檢測(cè)時(shí),主要存在的問(wèn)題:(1)主題排序問(wèn)題,現(xiàn)有技術(shù)僅僅按照主題本身包含的文檔個(gè)數(shù)來(lái)排序,使得當(dāng)前排序最前的主題是一些發(fā)生時(shí)間較長(zhǎng),相對(duì)陳舊的主題;(2)主題相似性問(wèn)題,由于同一個(gè)主題在發(fā)生初期會(huì)進(jìn)行不同方面的報(bào)道而被分為多個(gè)小主題,隨著事態(tài)的發(fā)展,主題的相似度可能會(huì)越來(lái)越大,這就給用戶的瀏覽帶來(lái)迷惑;(3)淘汰過(guò)時(shí)報(bào)道問(wèn)題,主題檢測(cè)是長(zhǎng)期持續(xù)的過(guò)程,而主題的動(dòng)態(tài)演化使得主題內(nèi)的一些報(bào)道和該主題的相關(guān)性會(huì)逐漸降低,或隨著事態(tài)發(fā)展,整個(gè)主題內(nèi)容可能過(guò)于寬泛,現(xiàn)有技術(shù)中沒(méi)有考慮到過(guò)時(shí)報(bào)道淘汰問(wèn)題;(4)主題描述問(wèn)題,目前主題的描述包括提取主題若干個(gè)特征詞和提取該主題中某個(gè)報(bào)道的標(biāo)題兩種方法,但是中文的自然語(yǔ)言處理技術(shù)仍然不夠成熟,特征詞并不一定可以表達(dá)該主題的意義,而如果采用該主題中某個(gè)報(bào)道的標(biāo)題來(lái)描述,則可能會(huì)片面。?
發(fā)明內(nèi)容
本發(fā)明的目的在于通過(guò)改進(jìn)現(xiàn)有的主題檢測(cè)算法,并將其用于解決輿情熱點(diǎn)檢測(cè)存在的問(wèn)題而提供一種輿情熱點(diǎn)動(dòng)態(tài)監(jiān)測(cè)方法。?
本發(fā)明通過(guò)如下技術(shù)方案實(shí)現(xiàn),具體包括如下步驟:?
步驟1,檢測(cè)一個(gè)或多個(gè)新聞網(wǎng)絡(luò)數(shù)據(jù)源,從數(shù)據(jù)源中抓取報(bào)道,解析出報(bào)道的時(shí)間、標(biāo)題和正文信息;
所述的新聞網(wǎng)絡(luò)數(shù)據(jù)源,當(dāng)新報(bào)道和已經(jīng)處理報(bào)道的重復(fù)度大于重復(fù)閾值θd時(shí),則認(rèn)為是重復(fù)報(bào)道,根據(jù)新報(bào)道的內(nèi)容進(jìn)行消重處理,其中0<θd≤1;
所述的消重處理步驟為:采用文本挖掘中的相似度計(jì)算方法進(jìn)行,并在報(bào)道預(yù)處理中,對(duì)報(bào)道按照網(wǎng)絡(luò)數(shù)據(jù)來(lái)源規(guī)則和基于內(nèi)容的自動(dòng)分類相結(jié)合的方法進(jìn)行分類。
步驟2,采用質(zhì)心比較策略,將當(dāng)前報(bào)道與所屬類別內(nèi)現(xiàn)有監(jiān)測(cè)到的主題進(jìn)行比較,同時(shí)考慮時(shí)間和內(nèi)容特征,計(jì)算當(dāng)前報(bào)道和現(xiàn)有監(jiān)測(cè)到的主題間的相似度,并記錄最大相似度Smax以及相似度最大的主題Es;?
所述的主題Es通過(guò)主題內(nèi)部所有新聞中綜合權(quán)重最高的若干個(gè)特征詞來(lái)表達(dá);所述的當(dāng)前報(bào)道和主題Es之間的相似度基于向量空間模型,通過(guò)兩者的夾角余弦值來(lái)計(jì)算;
其中,在計(jì)算當(dāng)前報(bào)道和現(xiàn)有監(jiān)測(cè)到的主題間的相似度S時(shí),給予權(quán)威性較高的報(bào)道以較高權(quán)重,報(bào)道的權(quán)威性采用數(shù)據(jù)源的權(quán)威性。
步驟3,根據(jù)步驟2中計(jì)算得到的最大相似度Smax以及相似度最大的主題Es,對(duì)當(dāng)前報(bào)道采取如下措施:?
a)?如果Smax小于創(chuàng)新閾值θn,則在該報(bào)道所述類別內(nèi)創(chuàng)建一個(gè)新主題;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京理工大學(xué)常熟研究院有限公司,未經(jīng)南京理工大學(xué)常熟研究院有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310069181.9/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種輿情信息獲取方法及裝置
- 一種輿情歸并方法、裝置、服務(wù)器和存儲(chǔ)介質(zhì)
- 企業(yè)輿情監(jiān)測(cè)方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種輿情數(shù)據(jù)推送方法、裝置、存儲(chǔ)介質(zhì)和終端設(shè)備
- 一種輿情分析方法
- 輿情分析方法、裝置、終端設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 知識(shí)庫(kù)構(gòu)建方法及裝置
- 生成輿情專題方法、系統(tǒng)及存儲(chǔ)介質(zhì)
- 基于區(qū)塊鏈、輿情和核心算法的金融風(fēng)控系統(tǒng)
- 網(wǎng)絡(luò)輿情云平臺(tái)用戶單位變更配置的方法及系統(tǒng)
- 使用多機(jī)器學(xué)習(xí)核的光刻熱點(diǎn)檢測(cè)
- 一種釣魚熱點(diǎn)的檢測(cè)方法及系統(tǒng)
- 一種基于大數(shù)據(jù)識(shí)別釣魚熱點(diǎn)的方法和設(shè)備
- 一種快速分享熱點(diǎn)的方法及設(shè)備
- 一種信息獲取的方法、設(shè)備以及介質(zhì)
- 一種熱點(diǎn)切換的方法及設(shè)備
- 熱點(diǎn)開啟方法、裝置、終端設(shè)備及存儲(chǔ)介質(zhì)
- 熱點(diǎn)區(qū)域定位方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種城市交通出行問(wèn)題熱點(diǎn)分級(jí)方法及裝置
- 一種基于無(wú)線熱點(diǎn)實(shí)現(xiàn)定位的方法與設(shè)備
- 動(dòng)態(tài)矢量譯碼方法和動(dòng)態(tài)矢量譯碼裝置
- 動(dòng)態(tài)口令的顯示方法及動(dòng)態(tài)令牌
- 動(dòng)態(tài)庫(kù)管理方法和裝置
- 動(dòng)態(tài)令牌的身份認(rèn)證方法及裝置
- 令牌、動(dòng)態(tài)口令生成方法、動(dòng)態(tài)口令認(rèn)證方法及系統(tǒng)
- 一種動(dòng)態(tài)模糊控制系統(tǒng)
- 一種基于動(dòng)態(tài)信號(hào)的POS機(jī)和安全保護(hù)方法
- 圖像動(dòng)態(tài)展示的方法、裝置、系統(tǒng)及介質(zhì)
- 一種基于POS機(jī)聚合碼功能分離顯示動(dòng)態(tài)聚合碼的系統(tǒng)
- 基于動(dòng)態(tài)口令的身份認(rèn)證方法、裝置和動(dòng)態(tài)令牌
- 檢測(cè)裝置、檢測(cè)方法和檢測(cè)組件
- 檢測(cè)方法、檢測(cè)裝置和檢測(cè)系統(tǒng)
- 檢測(cè)裝置、檢測(cè)方法以及記錄介質(zhì)
- 檢測(cè)設(shè)備、檢測(cè)系統(tǒng)和檢測(cè)方法
- 檢測(cè)芯片、檢測(cè)設(shè)備、檢測(cè)系統(tǒng)和檢測(cè)方法
- 檢測(cè)裝置、檢測(cè)設(shè)備及檢測(cè)方法
- 檢測(cè)芯片、檢測(cè)設(shè)備、檢測(cè)系統(tǒng)
- 檢測(cè)組件、檢測(cè)裝置以及檢測(cè)系統(tǒng)
- 檢測(cè)裝置、檢測(cè)方法及檢測(cè)程序
- 檢測(cè)電路、檢測(cè)裝置及檢測(cè)系統(tǒng)





