[發(fā)明專利]一種基于關鍵字加權算法的輿情熱詞發(fā)現(xiàn)方法在審
| 申請?zhí)枺?/td> | 201610123465.5 | 申請日: | 2016-03-03 |
| 公開(公告)號: | CN107153658A | 公開(公告)日: | 2017-09-12 |
| 發(fā)明(設計)人: | 趙一昕;李華康;楊天若;楊天楚 | 申請(專利權)人: | 常州普適信息科技有限公司;常州市公共交通集團公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 213000 江蘇省常州市新北區(qū)*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 關鍵字 加權 算法 輿情 發(fā)現(xiàn) 方法 | ||
技術領域
本發(fā)明涉及一種熱詞發(fā)現(xiàn)方法,具體涉及一種基于關鍵字加權算法的熱詞發(fā)現(xiàn)方法。
技術背景
隨著互聯(lián)網(wǎng)的普及和飛速發(fā)展,每日海量的新聞數(shù)據(jù)在網(wǎng)絡上涌現(xiàn)。另一方面,微博、博客、論壇等自媒體的出現(xiàn)使網(wǎng)絡上信息的發(fā)布者從專業(yè)的新聞媒體記者轉(zhuǎn)化為各行各業(yè)的普通網(wǎng)民,社會大眾也由過去被動的信息接收者轉(zhuǎn)為現(xiàn)在信息的傳播者。網(wǎng)絡用語由此變得越來越豐富多彩,譬如“給力”、“屌絲”、“躺槍”等新詞層出不窮。在此情況下,如何在紛繁復雜的網(wǎng)絡信息中挖掘熱點詞匯、如何獲取熱門的新詞條和新概念進而有效的尋找熱點話題,正成為輿情研究領域的熱點和難點。
熱詞是伴隨網(wǎng)絡普及而出現(xiàn)的一種詞匯現(xiàn)象,它通常反映了某一時間段內(nèi)社會中發(fā)生的重大事件或是被社會大眾所關注的熱點問題,是組成互聯(lián)網(wǎng)熱點信息的一部分。熱詞具有創(chuàng)造性和突發(fā)性,它覆蓋了當下網(wǎng)民或媒體關注的熱點人物、熱點事件。比如,“青島大蝦”就是出自于國慶期間,被爆出“38元一只”的天價蝦事件,之后此詞就暗諷某些商家的宰客行為。因此,快速識別熱詞就可以快速準確的了解社會以及民情,進而可以對輿論導向進行正確的引導和宣傳。另外,對各大搜索領域而言,有效地識別熱詞可以提高網(wǎng)站的點擊量,甚至增加利潤。簡單而言,熱詞發(fā)現(xiàn)是一種文本挖掘技術,就是從海量的網(wǎng)絡信息中經(jīng)過預處理、提取特征、以及聚類分析挖掘出在給定時間段內(nèi)出現(xiàn)的熱門詞條。
熱詞發(fā)現(xiàn)主要包含語料切分、噪音詞過濾、特征提取以及熱詞識別四個過程。
熱詞發(fā)現(xiàn)過程中最基本最關鍵的就是語料切分,簡而言之,就是分詞。眾所周知,中文和英文的一個顯著不同在于中文以漢字字符為最小單位,詞條與詞條之間不存在明顯的詞邊界,任何相鄰的字符都可能構(gòu)成熱詞,這給中文處理造成了很大困難,因此,詞條切分、確定詞邊界至關重要,極大的影響了后續(xù)垃圾詞過濾,熱詞識別處理的準確度。中文分詞大致分為基于詞典匹配的方法和基于統(tǒng)計的方法。基于詞典匹配的方法主要是將文本與給定的分詞詞典進行比較和匹配,然后通過歧義消除來進行處理,這種方法簡單,效率高,但對于并未登錄于 詞典上的詞難以識別。基于統(tǒng)計的分詞方法主要基于字和詞的統(tǒng)計信息,將相鄰字的共現(xiàn)信息應用于分詞,這種方法主要包括互信息、隱馬爾可夫模型(HMM)、隨機條件場(CRF)和最大熵模型(ME)。與基于詞典的分詞相比,這種方式處理速度慢,但卻對未登錄詞的識別有較好的效果。在實際處理中,大多會平衡分詞速度和精度這兩個因素,選擇詞典和統(tǒng)計相結(jié)合的方式進行分詞處理。
熱詞識別中,噪音詞的過濾又稱為停用詞過濾。對網(wǎng)絡文本進行預處理之后,我們得到了經(jīng)過詞性標注的詞組。這些詞組中有很多并無實際意義的詞,此時過濾處理主要針對以下兩種詞組:一種為頻繁出現(xiàn)的語氣助詞、介詞、連詞等虛詞,例如“的”、“是”、“了”、“嗎”等;另一種為修飾性地形容詞、表征程度地副詞和頻率出現(xiàn)較高的數(shù)詞和量詞的搭配。經(jīng)過過濾可以顯著提高后續(xù)文本處理和熱詞識別的速度。
文本表示是指用一種準確簡單的方式表示文檔內(nèi)容,從而可以為計算機識別。目前的文本表示方法有布爾模型、向量空間模型、概率檢索模型、N元語法模型等。其中,最為經(jīng)典的是向量空間模型(VSM,Vector Space Model),即將文本表示為特征項和特征項權值組成的空間向量的形式,特征項為該文檔表示的一個維度,特征項的權值反映了特征項對該文檔的重要程度。在空間向量模型中,每篇文檔表示為如下的形式:
v(D)={w1(d1),w2(d2),...,wn(dn)}
其中,D表示文檔,n表示在文本特征抽取時所抽取文本特征項的總數(shù),wj(dj)表示第j個文本特征項在文檔D中的權值。
熱詞發(fā)現(xiàn)中的熱詞識別依賴于VSM模型中特征權值的計算。權值的計算有三種方法:第一種為二值法,特征項出現(xiàn)在文檔中標記為1,否則標記為0;第二種方法權值表示為特征項在文檔中出現(xiàn)的頻率。這兩種方法并沒有考慮特征項在語料庫的重要程度,因此,特征權值采用經(jīng)典的TF-IDF方法更為合理。TF-IDF是一種用于信息檢索的常用的加權統(tǒng)計技術,他可以反映特征項對于一個語料庫中的一份文件的重要程度。某一特征項的權值隨著其在文件中出現(xiàn)的次數(shù)成正比增加,同時會隨著其在語料庫中出現(xiàn)的頻率成反比下降。他的具體定義形式如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于常州普適信息科技有限公司;常州市公共交通集團公司,未經(jīng)常州普適信息科技有限公司;常州市公共交通集團公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610123465.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





