[發(fā)明專利]基于微博平臺(tái)的事件關(guān)鍵人物提取方法在審
| 申請(qǐng)?zhí)枺?/td> | 202011498810.6 | 申請(qǐng)日: | 2020-12-17 |
| 公開(公告)號(hào): | CN112632998A | 公開(公告)日: | 2021-04-09 |
| 發(fā)明(設(shè)計(jì))人: | 曹娟;謝添;劉浩遠(yuǎn);徐朝喜 | 申請(qǐng)(專利權(quán))人: | 中國(guó)科學(xué)院計(jì)算技術(shù)研究所數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)研究院;杭州中科睿鑒科技有限公司 |
| 主分類號(hào): | G06F40/295 | 分類號(hào): | G06F40/295;G06F40/242;G06F16/35;G06F16/953 |
| 代理公司: | 杭州九洲專利事務(wù)所有限公司 33101 | 代理人: | 韓小燕 |
| 地址: | 310015 浙江省杭*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 平臺(tái) 事件 關(guān)鍵人物 提取 方法 | ||
1.一種基于微博平臺(tái)的事件關(guān)鍵人物提取方法,其特征在于:所述事件關(guān)鍵人物包括事件中的關(guān)鍵人名,以及事件傳播過程中的關(guān)鍵微博用戶和信息源頭用戶,所述關(guān)鍵微博用戶包括重要傳播用戶、事件發(fā)展節(jié)點(diǎn)用戶、公眾指向用戶。
2.根據(jù)要求要求1所述的基于微博平臺(tái)的事件關(guān)鍵人物提取方法,其特征在于,所述事件中的關(guān)鍵人名的提取方法,包括:
獲取事件微博;
對(duì)事件微博進(jìn)行人名識(shí)別和歧義人名修正,獲取事件中的關(guān)鍵人名。
3.根據(jù)權(quán)利要求2所述的基于微博平臺(tái)的事件關(guān)鍵人物提取方法,其特征在于,所述對(duì)事件微博進(jìn)行人名識(shí)別和歧義人名修正,包括:
利用分詞工具對(duì)事件涉及的微博數(shù)據(jù)進(jìn)行分詞和詞性標(biāo)注,選取其中的人名,并將每個(gè)人名在整個(gè)事件微博中出現(xiàn)的次數(shù)作為其權(quán)重;
對(duì)選取的人名,如果出現(xiàn)在先驗(yàn)概率詞典中,則以對(duì)應(yīng)的先驗(yàn)概率調(diào)整其權(quán)重;
對(duì)調(diào)整權(quán)重后的人名,依照權(quán)重大小排序,選擇前k個(gè)作為事件中的關(guān)鍵人名;
所述先驗(yàn)概率詞典的生成方法如下:
通過利用分詞工具對(duì)大規(guī)模微博語(yǔ)料進(jìn)行分詞和詞性標(biāo)注處理;
統(tǒng)計(jì)所有歧義詞項(xiàng)出現(xiàn)次數(shù)和被標(biāo)注為人名的次數(shù);
用標(biāo)注為人名的次數(shù)除以出現(xiàn)次數(shù)作為該歧義詞作為人名的先驗(yàn)概率,生成歧義人名的先驗(yàn)概率詞典。
4.根據(jù)權(quán)利要求1所述的基于微博平臺(tái)的事件關(guān)鍵人物提取方法,其特征在于,所述重要傳播用戶的提取方法,包括:
獲取事件微博;
獲取該事件傳播過程中傳播熱度較高微博對(duì)應(yīng)的作者作為重要傳播用戶;
所述微博傳播熱度hot(wi)的計(jì)算公式如下:
其中For(wi)為微博wi的轉(zhuǎn)發(fā)量,Com(wi)為微博wi的評(píng)論量,F(xiàn)an(ui)為wi對(duì)應(yīng)用戶ui的粉絲量。
5.根據(jù)權(quán)利要求1所述的基于微博平臺(tái)的事件關(guān)鍵人物提取方法,其特征在于,所述事件發(fā)展節(jié)點(diǎn)用戶的提取方法,包括:
使用single-pass聚類算法按照時(shí)間先后順序?qū)κ录婕暗奈⒉┻M(jìn)行聚類,并將每個(gè)類看作事件發(fā)展的一個(gè)階段或一個(gè)觀點(diǎn),在每個(gè)類中選取熱度最高的微博對(duì)應(yīng)的用戶為當(dāng)前事件發(fā)展節(jié)點(diǎn)的用戶代表,作為事件發(fā)展節(jié)點(diǎn)用戶。
6.根據(jù)權(quán)利要求1所述的基于微博平臺(tái)的事件關(guān)鍵人物提取方法,其特征在于,所述公眾指向用戶的提取方法,包括:
獲取事件涉及微博中被公眾用戶通知頻率最高的用戶,作為公眾指向用戶。
7.根據(jù)權(quán)利要求1所述的基于微博平臺(tái)的事件關(guān)鍵人物提取方法,其特征在于,所述信息源頭用戶的提取方法,包括:
獲取事件微博;
基于事件涉及微博發(fā)布的時(shí)間戳,獲取發(fā)布時(shí)間較早的事件涉及微博;
根據(jù)微博轉(zhuǎn)發(fā)量和評(píng)論量閾值過濾掉發(fā)布時(shí)間較早的事件涉及微博中轉(zhuǎn)發(fā)量和評(píng)論量較少的微博,將過濾后剩余的事件涉及微博用戶作為信息源頭用戶。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)科學(xué)院計(jì)算技術(shù)研究所數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)研究院;杭州中科睿鑒科技有限公司,未經(jīng)中國(guó)科學(xué)院計(jì)算技術(shù)研究所數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)研究院;杭州中科睿鑒科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011498810.6/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種事件通訊裝置及方法
- 動(dòng)態(tài)權(quán)重事件處理系統(tǒng)和方法
- 攻擊檢測(cè)裝置和攻擊檢測(cè)方法
- 基于Unity的事件管理方法及系統(tǒng)
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 熱點(diǎn)事件確定方法及裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種樹狀模型中節(jié)點(diǎn)的連接方法及其模型、計(jì)算機(jī)裝置和可讀存儲(chǔ)介質(zhì)
- 一種事件處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 移動(dòng)通信終端的地址簿信息管理及短消息傳送方法
- 一種視頻的縮略圖生成方法及系統(tǒng)
- 一種基于通信網(wǎng)絡(luò)數(shù)據(jù)分析的關(guān)鍵人物挖掘方法及系統(tǒng)
- 一種視頻生成的處理方法、裝置、終端設(shè)備及存儲(chǔ)介質(zhì)
- 一種新聞人物照片提取方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種優(yōu)化視頻關(guān)鍵人物運(yùn)動(dòng)軌跡的特征提取方法
- 基于圖像識(shí)別技術(shù)的異常人物關(guān)系網(wǎng)絡(luò)挖掘方法
- 一種基于網(wǎng)絡(luò)表示學(xué)習(xí)的社區(qū)輿論關(guān)鍵人物發(fā)現(xiàn)方法
- 基于微博平臺(tái)的事件關(guān)鍵人物提取方法
- 一種橫豎屏轉(zhuǎn)換畫面的裁剪方法、系統(tǒng)、裝置及介質(zhì)





