[發(fā)明專利]數(shù)據處理方法和數(shù)據處理設備有效
| 申請?zhí)枺?/td> | 201210212254.0 | 申請日: | 2012-06-21 |
| 公開(公告)號: | CN103514192B | 公開(公告)日: | 2017-03-01 |
| 發(fā)明(設計)人: | 張姝;孟遙;夏迎炬;于浩 | 申請(專利權)人: | 富士通株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司11227 | 代理人: | 朱勝,李春暉 |
| 地址: | 日本神*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數(shù)據處理 方法 設備 | ||
1.一種數(shù)據處理方法,包括:
微博搜索步驟,用于在搜索引擎中輸入給定實體的名稱,以獲取與所述名稱相關的多條微博作為目標集合;
預處理步驟,用于對所獲取的多條微博中的每條微博進行預處理,以獲取與所述多條微博中的每條微博相關的正文信息;
關系特征獲取步驟,用于基于所獲取的正文信息,獲取所述多條微博中的各條微博的第一關系特征和第二關系特征,其中,所述第一關系特征表示微博與所述給定實體的直接相關網頁信息之間的關系,并且所述第二關系特征表示微博與所述給定實體的間接相關網頁信息之間的關系;以及
相關性確定步驟,用于利用第一分類器和第二分類器,分別根據所述第一關系特征和所述第二關系特征,基于共同訓練方式來確定所述多條微博中的各條微博與所述給定實體之間的相關性。
2.根據權利要求1所述的數(shù)據處理方法,其中,所述相關性確定步驟進一步包括:
標注子步驟,用于分別利用所述第一分類器和所述第二分類器對所述目標集合中的每條微博進行標注;
種子添加子步驟,用于根據預定規(guī)則,將所述多條微博中的、所述第一分類器和/或所述第二分類器以高于預定閾值的置信度標注的微博作為新種子添加到預設的種子集合中,并相應地從所述目標集合移除該微博,其中所述預設的種子集合是預先標注好的多條微博的集合;
訓練子步驟,用于利用添加了所述新種子的種子集合,分別根據所述種子集合中的各條微博的第一關系特征和第二關系特征對所述第一分類器和所述第二分類器進行訓練;
迭代子步驟,用于利用添加了所述新種子的種子集合迭代執(zhí)行所述標注子步驟、所述種子添加子步驟以及所述訓練子步驟中的處理,直到達到預定指標為止;以及
輸出子步驟,用于基于最終的標注結果,輸出表示所述多條微博中的各條微博與所述實體之間的相關性的結果。
3.根據權利要求2所述的數(shù)據處理方法,其中,在所述種子添加子步驟中,通過以下方式中的一種或多種而將微博添加到所述種子集合中:
將所述第一分類器和所述第二分類器具有相同的標注結果的、并且所述第一分類器和所述第二分類器均以高于預定閾值的置信度標注的微博添加到所述種子集合中;以及
將第一預定數(shù)量的、所述第一分類器以高于預定閾值的置信度標注的微博以及第二預定數(shù)量的、所述第二分類器以高于預定值的置信度標注的微博添加到所述種子集合中。
4.根據權利要求2所述的數(shù)據處理方法,其中,當達到所述預定指標時,如果所述目標集合中還存在尚未被標注的微博,則在所述相關性確定步驟中以下述方式之一來確定所述未被標注的微博與所述給定實體之間的相關性:
基于所述第一分類器和所述第二分類器之一的分類結果;以及
基于所述第一分類器以及所述第二分類器對所述未被標注的微博的分類結果的分類置信度。
5.一種數(shù)據處理設備,包括:
微博搜索單元,被配置成在搜索引擎中輸入給定實體的名稱,以獲取與所述名稱相關的多條微博作為目標集合;
預處理單元,被配置成對所獲取的多條微博中的每條微博進行預處理,以獲取與所述多條微博中的每條微博相關的正文信息;
關系特征獲取單元,被配置成基于所獲取的正文信息,獲取所述多條微博中的各條微博的第一關系特征和第二關系特征,其中,所述第一關系特征表示微博與所述給定實體的直接相關網頁信息之間的關系,并且所述第二關系特征表示微博與所述給定實體的間接相關網頁信息之間的關系;以及
相關性確定單元,被配置成利用第一分類器和第二分類器,分別根據所述第一關系特征和所述第二關系特征,基于共同訓練方式來確定所述多條微博中的各條微博與所述給定實體之間的相關性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士通株式會社,未經富士通株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210212254.0/1.html,轉載請聲明來源鉆瓜專利網。
- 數(shù)據處理設備,數(shù)據處理方法,和數(shù)據處理程序
- 數(shù)據處理電路、數(shù)據處理裝置、數(shù)據處理方法、數(shù)據處理控制方法
- 數(shù)據處理設備、數(shù)據處理方法和數(shù)據處理程序
- 數(shù)據處理裝置、數(shù)據處理方法及數(shù)據處理程序
- 數(shù)據處理裝置、數(shù)據處理方法及計算機可讀取的記錄介質
- 數(shù)據處理裝置、數(shù)據處理方法和數(shù)據處理程序
- 數(shù)據處理裝置、數(shù)據處理方法和數(shù)據處理程序
- 數(shù)據處理裝置、數(shù)據處理方法以及數(shù)據處理程序
- 數(shù)據處理裝置、數(shù)據處理方法以及數(shù)據處理程序
- 數(shù)據處理裝置、數(shù)據處理方法和數(shù)據處理程序





