[發明專利]數據處理方法和數據處理設備有效
| 申請號: | 201210212254.0 | 申請日: | 2012-06-21 |
| 公開(公告)號: | CN103514192B | 公開(公告)日: | 2017-03-01 |
| 發明(設計)人: | 張姝;孟遙;夏迎炬;于浩 | 申請(專利權)人: | 富士通株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司11227 | 代理人: | 朱勝,李春暉 |
| 地址: | 日本神*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 設備 | ||
技術領域
本發明涉及一種數據處理方法和數據處理設備,更具體地,涉及一種用于確定微博與給定實體的相關性的數據處理方法和數據處理設備。
背景技術
微博(例如,推特、搜狐微博、騰訊微博和新浪微博等)作為一種社交媒體,迅速地贏得了世界范圍的歡迎。如何管理與微博有關的信息以掌握人們對相關實體的反饋和評論等已受到廣泛關注,而關鍵的問題之一即是獲得與所關注實體(例如,產品、企業以及特定事件等)相關的微博信息。
獲得與所關注實體有關的微博信息將面臨以下問題:微博和實體都包含很少信息。微博不同于傳統的由用戶所生成的媒體,它僅允許用戶生成不超過140個字符的消息。因此,監控和分析這些消息具有一定難度。此外,實體名稱可能是模糊的,例如,蘋果公司的名稱Apple也可以表示水果蘋果。亞馬遜公司的名稱Amazon也可以表示亞馬遜河。因此,這使得微博信息與實體之間的匹配變得困難,因而希望能夠通過挖掘上網絡上與該實體相關的信息來豐富實體的相關信息。
發明內容
在下文中給出了關于本發明的簡要概述,以便提供關于本發明的某些方面的基本理解。但是,應當理解,這個概述并不是關于本發明的窮舉性概述。它并不是意圖用來確定本發明的關鍵性部分或重要部分,也不是意圖用來限定本發明的范圍。其目的僅僅是以簡化的形式給出關于本發明的某些概念,以此作為稍后給出的更詳細描述的前序。
因此,鑒于上述情形,本發明的目的是提供一種數據處理方法和數據處理設備,其能夠通過挖掘網絡上與實體相關的信息來擴展實體方面的信息,從而有助于微博信息與實體之間的匹配,并且還能夠通過半監督方式,分別從兩個視角建立兩個分類器,增強對微博信息的整體分類性能,從而更準確地確定微博與給定實體之間的相關性。
根據本發明的實施例的第一方面,提供了一種數據處理方法,其可以包括:微博搜索步驟,用于在搜索引擎中輸入給定實體的名稱,以獲取與該名稱相關的多條微博作為目標集合;預處理步驟,用于對所獲取的多條微博中的每條微博進行預處理,以獲取與多條微博中的每條微博相關的正文信息;關系特征獲取步驟,用于基于所獲取的正文信息,獲取多條微博中的各條微博的第一關系特征和第二關系特征,其中,第一關系特征表示微博與給定實體的直接相關網頁信息之間的關系,并且第二關系特征表示微博與給定實體的間接相關網頁信息之間的關系;以及相關性確定步驟,用于利用第一分類器和第二分類器,分別根據第一關系特征和第二關系特征,基于共同訓練方式來確定多條微博中的各條微博與給定實體之間的相關性。
根據本發明的優選實施例,相關性確定步驟可以進一步包括:標注子步驟,用于分別利用第一分類器和第二分類器對目標集合中的每條微博進行標注;種子添加子步驟,用于根據預定規則,將多條微博中的、第一分類器和/或所述第二分類器以高于預定閾值的置信度標注的微博作為新種子添加到預設的種子集合中,并相應地從目標集合移除該微博,其中預設的種子集合是預先標注好的多條微博的集合;訓練子步驟,用于利用添加了新種子的種子集合,分別根據種子集合中的各條微博的第一關系特征和第二關系特征對第一分類器和所述第二分類器進行訓練;迭代子步驟,用于利用添加了新種子的種子集合迭代執行標注子步驟、種子添加子步驟以及訓練子步驟中的處理,直到達到預定指標為止;以及輸出子步驟,用于基于最終的標注結果,輸出表示多條微博中的各條微博與實體之間的相關性的結果。
根據本發明的另一優選實施例,在種子添加子步驟中,可以通過以下方式中的一種或多種而將微博添加到種子集合中:將第一分類器和第二分類器具有相同的標注結果的、并且第一分類器和第二分類器均以高于預定閾值的置信度標注的微博添加到種子集合中;以及將第一預定數量的、第一分類器以高于預定閾值的置信度標注的微博以及第二預定數量的、第二分類器以高于預定值的置信度標注的微博添加到種子集合中。
根據本發明的又一優選實施例,預定指標可以包括以下中的一種或多種:達到預定的迭代次數;目標集合中不存在分類置信度高于預定置信度閾值的微博;以及完成了對目標集合中的所有微博的標注。
根據本發明的再一優選實施例,當達到預定指標時,如果目標集合中還存在尚未被標注的微博,則在相關性確定步驟中可以以下述方式之一來確定未被標注的微博與給定實體之間的相關性:基于第一分類器和第二分類器之一的分類結果;以及基于第一分類器以及第二分類器對未被標注的微博的分類結果的分類置信度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士通株式會社,未經富士通株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210212254.0/2.html,轉載請聲明來源鉆瓜專利網。





