[發(fā)明專利]基于微博平臺的事件關鍵人物提取方法在審
| 申請?zhí)枺?/td> | 202011498810.6 | 申請日: | 2020-12-17 |
| 公開(公告)號: | CN112632998A | 公開(公告)日: | 2021-04-09 |
| 發(fā)明(設計)人: | 曹娟;謝添;劉浩遠;徐朝喜 | 申請(專利權)人: | 中國科學院計算技術研究所數(shù)字經(jīng)濟產(chǎn)業(yè)研究院;杭州中科睿鑒科技有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/242;G06F16/35;G06F16/953 |
| 代理公司: | 杭州九洲專利事務所有限公司 33101 | 代理人: | 韓小燕 |
| 地址: | 310015 浙江省杭*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 平臺 事件 關鍵人物 提取 方法 | ||
本發(fā)明涉及一種基于微博平臺的事件關鍵人物提取方法。本發(fā)明的目的是提供一種基于微博平臺的事件關鍵人物提取方法。本發(fā)明的技術方案是:一種基于微博平臺的事件關鍵人物提取方法,其特征在于:所述事件關鍵人物包括事件中的關鍵人名,以及事件傳播過程中的關鍵微博用戶和信息源頭用戶,所述關鍵微博用戶包括重要傳播用戶、事件發(fā)展節(jié)點用戶、公眾指向用戶。本發(fā)明適用于信息抽取技術領域。
技術領域
本發(fā)明涉及一種基于微博平臺的事件關鍵人物提取方法。適用于信息抽取技術領域。
背景技術
隨著WEB2.0技術的快速發(fā)展,普通用戶已經(jīng)成為互聯(lián)網(wǎng)上內(nèi)容的主要生產(chǎn)者,UGC(User Generated Content)具有反應及時,傳播快的特點。作為UGC的典型代表,微博平臺憑借進入門檻低、數(shù)據(jù)量大、分享自由及時,形式多元化等優(yōu)勢,已成為重要的事件來源和網(wǎng)絡輿論場所,基于微博平臺進行事件分析的相關條件已經(jīng)具備,而人物作為事件的重要主體,其提取的準確和全面與否在很大程度上影響了事件分析的準確性和全面性。
現(xiàn)有基于微博的信息抽取技術主要集中在針對微博用戶及社交圈的抓取,不能有效考慮用戶及人物在事件中的角色和作用,難于實現(xiàn)提取事件中關鍵人物的目標。
發(fā)明內(nèi)容
本發(fā)明要解決的技術問題是:針對上述存在的問題,提供一種基于微博平臺的事件關鍵人物提取方法。
本發(fā)明所采用的技術方案是:一種基于微博平臺的事件關鍵人物提取方法,其特征在于:所述事件關鍵人物包括事件中的關鍵人名,以及事件傳播過程中的關鍵微博用戶和信息源頭用戶,所述關鍵微博用戶包括重要傳播用戶、事件發(fā)展節(jié)點用戶、公眾指向用戶。
所述事件中的關鍵人名的提取方法,包括:
獲取事件微博;
對事件微博進行人名識別和歧義人名修正,獲取事件中的關鍵人名。
所述對事件微博進行人名識別和歧義人名修正,包括:
利用分詞工具對事件涉及的微博數(shù)據(jù)進行分詞和詞性標注,選取其中的人名,并將每個人名在整個事件微博中出現(xiàn)的次數(shù)作為其權重;
對選取的人名,如果出現(xiàn)在先驗概率詞典中,則以對應的先驗概率調(diào)整其權重;
對調(diào)整權重后的人名,依照權重大小排序,選擇前k個作為事件中的關鍵人名;
所述先驗概率詞典的生成方法如下:
通過利用分詞工具對大規(guī)模微博語料進行分詞和詞性標注處理;
統(tǒng)計所有歧義詞項出現(xiàn)次數(shù)和被標注為人名的次數(shù);
用標注為人名的次數(shù)除以出現(xiàn)次數(shù)作為該歧義詞作為人名的先驗概率,生成歧義人名的先驗概率詞典。
所述重要傳播用戶的提取方法,包括:
獲取事件微博;
獲取該事件傳播過程中傳播熱度較高微博對應的作者作為重要傳播用戶;
所述微博傳播熱度hot(wi)的計算公式如下:
其中For(wi)為微博wi的轉發(fā)量,Com(wi)為微博wi的評論量,F(xiàn)an(ui)為wi對應用戶ui的粉絲量。
所述事件發(fā)展節(jié)點用戶的提取方法,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所數(shù)字經(jīng)濟產(chǎn)業(yè)研究院;杭州中科睿鑒科技有限公司,未經(jīng)中國科學院計算技術研究所數(shù)字經(jīng)濟產(chǎn)業(yè)研究院;杭州中科睿鑒科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011498810.6/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 移動通信終端的地址簿信息管理及短消息傳送方法
- 一種視頻的縮略圖生成方法及系統(tǒng)
- 一種基于通信網(wǎng)絡數(shù)據(jù)分析的關鍵人物挖掘方法及系統(tǒng)
- 一種視頻生成的處理方法、裝置、終端設備及存儲介質(zhì)
- 一種新聞人物照片提取方法、裝置、設備及存儲介質(zhì)
- 一種優(yōu)化視頻關鍵人物運動軌跡的特征提取方法
- 基于圖像識別技術的異常人物關系網(wǎng)絡挖掘方法
- 一種基于網(wǎng)絡表示學習的社區(qū)輿論關鍵人物發(fā)現(xiàn)方法
- 基于微博平臺的事件關鍵人物提取方法
- 一種橫豎屏轉換畫面的裁剪方法、系統(tǒng)、裝置及介質(zhì)





