[發(fā)明專利]基于微博內容的關鍵詞挖掘方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201410768704.3 | 申請日: | 2014-12-11 |
| 公開(公告)號: | CN104504024B | 公開(公告)日: | 2018-09-07 |
| 發(fā)明(設計)人: | 高寶強;吳波;曹娟;張勇東;李錦濤 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京泛華偉業(yè)知識產(chǎn)權代理有限公司 11280 | 代理人: | 王勇 |
| 地址: | 100190 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 內容 關鍵詞 挖掘 方法 系統(tǒng) | ||
本發(fā)明提供一種基于微博內容的關鍵詞挖掘方法,對于所有微博文本經(jīng)分詞得到的所有詞的集合中的每個詞,基于該詞在每個微博文本中出現(xiàn)的次數(shù)及該微博文本被轉發(fā)的次數(shù)來計算該詞的權重;并選取其權重大于預定閾值的詞作為從該微博數(shù)據(jù)集中挖掘的關鍵詞。該方法即考慮了詞語在各個微博文本中出現(xiàn)的頻率,又考慮了同一微博文本在微博數(shù)據(jù)集中轉發(fā)情況對挖掘關鍵詞的準確性的影響,因此提高了獲取微博文本關鍵詞的精確度。
技術領域
本發(fā)明屬于數(shù)據(jù)挖掘領域,尤其涉及對用戶微博內容的關鍵詞挖掘方法。
背景技術
隨著互聯(lián)網(wǎng)在中國的不斷崛起與發(fā)展,微博已經(jīng)成為中國目前比較流行的社交網(wǎng)絡服務平臺。在國內新浪微博注冊用戶已經(jīng)超過5億。微博用戶在使用微博的時候,經(jīng)常以短文本的形式來描述一些感興趣的事情,來表達自己的一些觀點。微博用戶在微博上發(fā)送大量微博,產(chǎn)生大量有價值的信息,并且網(wǎng)民喜歡通過微博來獲取信息,表達觀點和傳播思想。因此需要提取微博中有價值的信息的方法。
關鍵詞挖掘是數(shù)據(jù)挖掘領域中很重要的一種關鍵技術。文本的關鍵詞是文本知識獲取與表示的基本單元之一。對文本進行分詞來獲取關鍵詞在文本分類、聚類、資源服務等領域有著廣泛的應用。現(xiàn)有的獲取文本關鍵詞的方法主要包括:TF-IDF方法、互信息方法、樸素貝葉斯分類方法、最大熵模型法、最大似然性等方法。目前較常用的方法是TF-IDF(term frequency–inverse document frequency,詞頻-逆向文檔頻率)方法,該方法對文檔進行分詞后統(tǒng)計每個詞的詞頻TF和逆向文檔頻率IDF。其中詞頻TF指的是某一個給定的詞語在一個文檔中出現(xiàn)的次數(shù)。逆向文檔頻率IDF是一個詞語普遍重要性的度量。某一特定詞語的IDF,可以由總文件數(shù)目除以包含該詞語的文件的數(shù)目,再將得到的商取對數(shù)得到。某一特定文檔內詞語的高的TF,以及該詞語在整個文檔集合中低的IDF,可以產(chǎn)生出高權重的TF-IDF。也就是說,TF-IDF傾向于保留文檔中較為特別的詞語,過濾常用詞。但是該方法提取關鍵詞的精度并不是很好,并且該方法僅是針對規(guī)范或格式化的常規(guī)文檔,并沒有考慮微博文本所具有的實時更新、用詞不規(guī)范,各種新詞不斷出現(xiàn)、某些微博文本不斷被轉發(fā)等特點。
發(fā)明內容
因此,本發(fā)明的目的在于克服上述現(xiàn)有技術的缺陷,提供一種基于微博內容的關鍵詞挖掘方法。
本發(fā)明的目的是通過以下技術方案實現(xiàn)的:
一方面,本發(fā)明提供了一種基于微博內容的關鍵詞挖掘方法,包括:
步驟1,對于待分析的微博數(shù)據(jù)集中的每條微博文本進行分詞,并統(tǒng)計每個詞在該微博文本中出現(xiàn)的次數(shù)以及該微博文本被轉發(fā)的次數(shù);
步驟2,對于經(jīng)分詞后得到的每個詞,基于該詞在每個微博文本中出現(xiàn)的次數(shù)及該微博文本被轉發(fā)的次數(shù)來計算該詞的權重;
步驟3,選取其權重大于預定閾值的詞作為從該微博數(shù)據(jù)集中挖掘的關鍵詞。
在上述方法中,在所述步驟2,對于任一個詞語t,其權重可以為:其中N為該微博數(shù)據(jù)集所包含的微博文本的總數(shù),ti是詞語t在第i個微博文本中出現(xiàn)的次數(shù),fi是第i個微博文本被轉發(fā)的次數(shù),fmax是微博數(shù)據(jù)集中微博文本的最大轉發(fā)數(shù)。
在上述方法中,在所述步驟2,對于任一個詞語t,其權重可以為:其中N為該微博數(shù)據(jù)集所包含的微博文本的總數(shù),ti是詞語t在第i個微博文本中出現(xiàn)的次數(shù),fi是第i個微博文本被轉發(fā)的次數(shù),fmax是微博數(shù)據(jù)集中微博文本的最大轉發(fā)數(shù)。
在上述方法中,在所述步驟2,對于任一個詞語t,其權重可以為:其中N為該微博數(shù)據(jù)集所包含的微博文本的總數(shù),di指示詞語t在第i個微博文本中是否出現(xiàn),fi是第i個微博文本被轉發(fā)的次數(shù),fmax是微博數(shù)據(jù)集中微博文本的最大轉發(fā)數(shù)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經(jīng)中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410768704.3/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 內容再現(xiàn)系統(tǒng)、內容提供方法、內容再現(xiàn)裝置、內容提供裝置、內容再現(xiàn)程序和內容提供程序
- 內容記錄系統(tǒng)、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統(tǒng)、內容服務器、內容終端及內容服務方法
- 內容分發(fā)系統(tǒng)、內容分發(fā)裝置、內容再生終端及內容分發(fā)方法
- 內容發(fā)布、內容獲取的方法、內容發(fā)布裝置及內容傳播系統(tǒng)
- 內容提供裝置、內容提供方法、內容再現(xiàn)裝置、內容再現(xiàn)方法
- 內容傳輸設備、內容傳輸方法、內容再現(xiàn)設備、內容再現(xiàn)方法、程序及內容分發(fā)系統(tǒng)
- 內容發(fā)送設備、內容發(fā)送方法、內容再現(xiàn)設備、內容再現(xiàn)方法、程序及內容分發(fā)系統(tǒng)
- 內容再現(xiàn)裝置、內容再現(xiàn)方法、內容再現(xiàn)程序及內容提供系統(tǒng)
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





