[發(fā)明專利]確定微博與給定實體的相關性的方法和裝置有效
| 申請?zhí)枺?/td> | 201110414476.6 | 申請日: | 2011-12-13 |
| 公開(公告)號: | CN103164428A | 公開(公告)日: | 2013-06-19 |
| 發(fā)明(設計)人: | 張姝;孟遙;夏迎炬;于浩 | 申請(專利權)人: | 富士通株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產(chǎn)權代理有限公司 11227 | 代理人: | 朱勝;王娜麗 |
| 地址: | 日本神*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 確定 給定 實體 相關性 方法 裝置 | ||
技術領域
本發(fā)明涉及微博信息挖掘領域,具體涉及確定微博與給定實體的相關性的方法和裝置。
背景技術
微博(例如,推特、搜狐微博和騰訊微博等)作為一種社交媒體,迅速地贏得了世界范圍的歡迎。如何管理與微博有關的信息以掌握人們對政府政策的響應、人們對商品的反饋和評論等已受到研究團體的大量關注。存在一些研究,諸如觀點挖掘和在線聲譽管理等,它們聚焦于監(jiān)控用戶生成的媒體。這些研究的關鍵內(nèi)容之一在于首先要獲得與所研究實體(諸如產(chǎn)品、公司或特定事件)有關的信息。
獲得與所研究實體有關的信息將面臨以下兩個問題。首先,微博和實體都包含很少信息。微博不同于傳統(tǒng)的由用戶所生成的媒體。它允許用戶生成不超過140個字符的消息。可獲得小的上下文信息。因此,監(jiān)控和分析這些消息是具有挑戰(zhàn)性的。此外,實體名稱可能是模糊的,導致這是個有挑戰(zhàn)的任務。例如,蘋果公司的名稱Apple也可以表示水果蘋果。亞馬遜公司的名稱Amazon也可以表示亞馬遜河。過濾可疑名稱匹配對于有效地檢測和分析人們談論該實體的相關內(nèi)容來說是非常重要的。其次,訓練數(shù)據(jù)中的組織和測試數(shù)據(jù)中的實體不同,這導致難以將分類器訓練為針對特定實體。
因此,需要一種能夠解決上述問題的技術。
發(fā)明內(nèi)容
在下文中給出關于本發(fā)明的簡要概述,以便提供關于本發(fā)明的某些方面的基本理解。應當理解,這個概述并不是關于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細描述的前序。
本發(fā)明的一個主要目的在于,提供一種確定微博與給定實體的相關性的方法和裝置。
根據(jù)本發(fā)明的一個方面,提供了一種確定多個微博中的每個微博與給定實體的相關性的方法,包括:提取多個微博中的每個微博的特征;根據(jù)所提取的特征確定微博之間的相似度;以及利用所確定的微博之間的相似度,基于半監(jiān)督分類器來確定多個微博中的每個微博與給定實體的相關性。
根據(jù)本發(fā)明的另一個方面,提供了一種確定多個微博中的每個微博與給定實體的相關性的裝置,包括:微博特征提取單元,被配置為提取多個微博中的每個微博的特征;相似度確定單元,被配置為根據(jù)所提取的特征確定微博之間的相似度;以及相關性確定單元,被配置為利用所確定的微博之間的相似度,基于半監(jiān)督分類器來確定多個微博中的每個微博與給定實體的相關性。
根據(jù)本發(fā)明的又一個方面,提供了一種用于實現(xiàn)上述方法的計算機程序。
根據(jù)本發(fā)明的再一個方面,提供了一種計算機可讀介質(zhì)形式的計算機程序產(chǎn)品,其上記錄有用于實現(xiàn)上述方法的計算機程序代碼。
通過以下結(jié)合附圖對本發(fā)明的最佳實施例的詳細說明,本發(fā)明的這些以及其他優(yōu)點將更加明顯。
附圖說明
參照下面結(jié)合附圖對本發(fā)明實施例的說明,會更加容易地理解本發(fā)明的以上和其它目的、特點和優(yōu)點。附圖中的部件只是為了示出本發(fā)明的原理。在附圖中,相同的或類似的技術特征或部件將采用相同或類似的附圖標簽來表示。
圖1是示出根據(jù)本發(fā)明的實施例的確定微博與給定實體的相關性的方法的流程圖;
圖2是示出根據(jù)本發(fā)明的實施例的基于標簽傳播算法來確定微博與實體的相關性的方法的流程圖;
圖3是示出根據(jù)本發(fā)明的實施例的結(jié)合有監(jiān)督分類器和半監(jiān)督分類器來確定微博與給定實體的相關性的方法的流程圖;
圖4是示出具有百科全書屬性的網(wǎng)頁的示意圖,該網(wǎng)頁用于消除詞匯的歧義;
圖5是示出相關詞查詢網(wǎng)頁的示意圖,該網(wǎng)頁用于查找與特定詞匯相關的詞匯;
圖6是示出根據(jù)本發(fā)明的實施例的確定微博與給定實體的相關性的裝置的配置的框圖;
圖7是示出根據(jù)本發(fā)明的實施例的相關性確定單元的示意性配置的框圖;
圖8是示出根據(jù)本發(fā)明的實施例的確定微博與給定實體的相關性的裝置的一個示例性配置的框圖;
圖9是示出根據(jù)本發(fā)明的實施例的必要性判斷單元的配置的框圖;
圖10是示出根據(jù)本發(fā)明的實施例的種子選擇模塊的配置的框圖;以及
圖11是示出可以用于實施根據(jù)本發(fā)明的實施例的確定微博與給定實體的相關性的方法和裝置的計算設備的舉例的結(jié)構(gòu)圖。
具體實施方式
下面參照附圖來說明本發(fā)明的實施例。在本發(fā)明的一個附圖或一種實施方式中描述的元素和特征可以與一個或更多個其它附圖或?qū)嵤┓绞街惺境龅脑睾吞卣飨嘟Y(jié)合。應當注意,為了清楚的目的,附圖和說明中省略了與本發(fā)明無關的、本領域普通技術人員已知的部件和處理的表示和描述。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士通株式會社,未經(jīng)富士通株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110414476.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:恢復誤刪除文件的方法及移動終端
- 下一篇:數(shù)據(jù)存取方法





