[發(fā)明專利]基于微博內(nèi)容的關(guān)鍵詞挖掘方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201410768704.3 | 申請日: | 2014-12-11 |
| 公開(公告)號: | CN104504024B | 公開(公告)日: | 2018-09-07 |
| 發(fā)明(設(shè)計)人: | 高寶強;吳波;曹娟;張勇東;李錦濤 | 申請(專利權(quán))人: | 中國科學(xué)院計算技術(shù)研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京泛華偉業(yè)知識產(chǎn)權(quán)代理有限公司 11280 | 代理人: | 王勇 |
| 地址: | 100190 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 內(nèi)容 關(guān)鍵詞 挖掘 方法 系統(tǒng) | ||
1.一種基于微博內(nèi)容的關(guān)鍵詞挖掘方法,所述方法包括:
步驟1,對于待分析的微博數(shù)據(jù)集中的每條微博文本進行分詞,并統(tǒng)計每個詞在該微博文本中出現(xiàn)的次數(shù)以及該微博文本被轉(zhuǎn)發(fā)的次數(shù);
步驟2,對于經(jīng)分詞后得到的每個詞,基于該詞在每個微博文本中出現(xiàn)的次數(shù)及該微博文本被轉(zhuǎn)發(fā)的次數(shù)來計算該詞的權(quán)重;
步驟3,選取其權(quán)重大于預(yù)定閾值的詞作為從該微博數(shù)據(jù)集中挖掘的關(guān)鍵詞;
其中,在所述步驟2中,對于任一個詞語t,其權(quán)重為:其中N為該微博數(shù)據(jù)集所包含的微博文本的總數(shù),ti是詞語t在第i個微博文本中出現(xiàn)的次數(shù),fi是第i個微博文本被轉(zhuǎn)發(fā)的次數(shù),fmax是微博數(shù)據(jù)集中微博文本的最大轉(zhuǎn)發(fā)數(shù)。
2.一種基于微博內(nèi)容的關(guān)鍵詞挖掘方法,所述方法包括:
步驟1,對于待分析的微博數(shù)據(jù)集中的每條微博文本進行分詞,并統(tǒng)計每個詞在該微博文本中出現(xiàn)的次數(shù)以及該微博文本被轉(zhuǎn)發(fā)的次數(shù);
步驟2,對于經(jīng)分詞后得到的每個詞,基于該詞在每個微博文本中出現(xiàn)的次數(shù)及該微博文本被轉(zhuǎn)發(fā)的次數(shù)來計算該詞的權(quán)重;
步驟3,選取其權(quán)重大于預(yù)定閾值的詞作為從該微博數(shù)據(jù)集中挖掘的關(guān)鍵詞;
在所述步驟2中,對于任一個詞語t,其權(quán)重為:其中N為該微博數(shù)據(jù)集所包含的微博文本的總數(shù),ti是詞語t在第i個微博文本中出現(xiàn)的次數(shù),fi是第i個微博文本被轉(zhuǎn)發(fā)的次數(shù),fmax是微博數(shù)據(jù)集中微博文本的最大轉(zhuǎn)發(fā)數(shù)。
3.一種基于微博內(nèi)容的關(guān)鍵詞挖掘方法,所述方法包括:
步驟1,對于待分析的微博數(shù)據(jù)集中的每條微博文本進行分詞,并統(tǒng)計每個詞在該微博文本中出現(xiàn)的次數(shù)以及該微博文本被轉(zhuǎn)發(fā)的次數(shù);
步驟2,對于經(jīng)分詞后得到的每個詞,基于該詞在每個微博文本中出現(xiàn)的次數(shù)及該微博文本被轉(zhuǎn)發(fā)的次數(shù)來計算該詞的權(quán)重;
步驟3,選取其權(quán)重大于預(yù)定閾值的詞作為從該微博數(shù)據(jù)集中挖掘的關(guān)鍵詞;
其中,在所述步驟2中,對于任一個詞語t,其權(quán)重為:其中N為該微博數(shù)據(jù)集所包含的微博文本的總數(shù),di指示詞語t在第i個微博文本中是否出現(xiàn),fi是第i個微博文本被轉(zhuǎn)發(fā)的次數(shù),fmax是微博數(shù)據(jù)集中微博文本的最大轉(zhuǎn)發(fā)數(shù)。
4.根據(jù)權(quán)利要求1、2或3所述的方法,還包括在步驟1之前實時抓取微博網(wǎng)絡(luò)數(shù)據(jù),以及定期地對所抓取的微博網(wǎng)絡(luò)數(shù)據(jù)的步驟。
5.根據(jù)權(quán)利要求1、2或3所述的方法,還包括將所挖掘的關(guān)鍵詞以詞云的形式提供給用戶。
6.一種基于微博內(nèi)容的關(guān)鍵詞挖掘系統(tǒng),所述系統(tǒng)包括:
微博文本分詞和統(tǒng)計裝置,用于對于待分析的微博數(shù)據(jù)集中的每條微博文本進行分詞,并統(tǒng)計每個詞在該微博文本中出現(xiàn)的次數(shù)以及該微博文本被轉(zhuǎn)發(fā)的次數(shù);
關(guān)鍵詞挖掘裝置,用于對于經(jīng)分詞后得到的每個詞,基于該詞在每個微博文本中出現(xiàn)的次數(shù)及該微博文本被轉(zhuǎn)發(fā)的次數(shù)來計算該詞的權(quán)重,以及選取其權(quán)重大于預(yù)定閾值的詞作為從該微博數(shù)據(jù)集中挖掘的關(guān)鍵詞;
其中,對于任一個詞語t,其權(quán)重為:其中N為該微博數(shù)據(jù)集所包含的微博文本的總數(shù),ti是詞語t在第i個微博文本中出現(xiàn)的次數(shù),fi是第i個微博文本被轉(zhuǎn)發(fā)的次數(shù),fmax是微博數(shù)據(jù)集中微博文本的最大轉(zhuǎn)發(fā)數(shù)。
7.根據(jù)權(quán)利要求6所述的系統(tǒng),還包括微博數(shù)據(jù)抓取裝置,用于實時抓取微博網(wǎng)絡(luò)數(shù)據(jù),并定期地將所抓取的微博網(wǎng)絡(luò)數(shù)據(jù)傳遞給微博文本分詞和統(tǒng)計裝置進行處理。
8.根據(jù)權(quán)利要求6所述的系統(tǒng),還包括關(guān)鍵詞展示裝置,用于將關(guān)鍵詞挖掘裝置所挖掘的關(guān)鍵詞以詞云的形式提供給用戶。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院計算技術(shù)研究所,未經(jīng)中國科學(xué)院計算技術(shù)研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410768704.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 內(nèi)容再現(xiàn)系統(tǒng)、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容提供裝置、內(nèi)容再現(xiàn)程序和內(nèi)容提供程序
- 內(nèi)容記錄系統(tǒng)、內(nèi)容記錄方法、內(nèi)容記錄設(shè)備和內(nèi)容接收設(shè)備
- 內(nèi)容服務(wù)系統(tǒng)、內(nèi)容服務(wù)器、內(nèi)容終端及內(nèi)容服務(wù)方法
- 內(nèi)容分發(fā)系統(tǒng)、內(nèi)容分發(fā)裝置、內(nèi)容再生終端及內(nèi)容分發(fā)方法
- 內(nèi)容發(fā)布、內(nèi)容獲取的方法、內(nèi)容發(fā)布裝置及內(nèi)容傳播系統(tǒng)
- 內(nèi)容提供裝置、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法
- 內(nèi)容傳輸設(shè)備、內(nèi)容傳輸方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容發(fā)送設(shè)備、內(nèi)容發(fā)送方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法、內(nèi)容再現(xiàn)程序及內(nèi)容提供系統(tǒng)
- 內(nèi)容記錄裝置、內(nèi)容編輯裝置、內(nèi)容再生裝置、內(nèi)容記錄方法、內(nèi)容編輯方法、以及內(nèi)容再生方法
- 關(guān)鍵詞輸出設(shè)備和關(guān)鍵詞輸出方法
- 用于選擇用于網(wǎng)絡(luò)發(fā)布的關(guān)鍵詞的方法和設(shè)備
- 關(guān)鍵詞質(zhì)量度的檢測方法和裝置
- 關(guān)鍵詞排名的檢測方法和裝置
- 關(guān)鍵詞相似度獲取方法、裝置及服務(wù)器
- 關(guān)鍵詞推薦方法及裝置
- 一種關(guān)鍵詞檢索管理系統(tǒng)
- 一種信息推薦方法、電子設(shè)備、存儲介質(zhì)及系統(tǒng)
- 關(guān)鍵詞廣告投放自動化否定關(guān)鍵詞方法及裝置
- 一種長尾關(guān)鍵詞識別方法、關(guān)鍵詞搜索方法及計算機設(shè)備





