[發明專利]確定微博與給定實體的相關性的方法和裝置有效
| 申請號: | 201110414476.6 | 申請日: | 2011-12-13 |
| 公開(公告)號: | CN103164428A | 公開(公告)日: | 2013-06-19 |
| 發明(設計)人: | 張姝;孟遙;夏迎炬;于浩 | 申請(專利權)人: | 富士通株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 朱勝;王娜麗 |
| 地址: | 日本神*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 確定 給定 實體 相關性 方法 裝置 | ||
1.一種確定多個微博中的每個微博與給定實體的相關性的方法,包括:
提取所述多個微博中的每個微博的特征;
根據所提取的特征確定所述微博之間的相似度;以及
利用所確定的所述微博之間的相似度,基于半監督分類器來確定所述多個微博中的每個微博與所述給定實體的相關性。
2.根據權利要求1所述的方法,其中,所述半監督分類器為基于標簽傳播的分類器。
3.根據權利要求2所述的方法,其中,所述基于半監督分類器來確定所述多個微博中的每個微博與所述給定實體的相關性的步驟包括:
通過將所述多個微博中的每個微博視為節點、在具有共同特征的兩個微博之間構建邊、并且用所述具有共同特征的兩個微博之間的相似度表示所述邊的權重,來構建微博節點圖;
從所述節點中選擇一部分節點作為種子;以及
基于標簽傳播的算法來確定所述多個微博中的每個微博與所述給定實體的相關性。
4.根據權利要求3所述的方法,在根據所提取的特征確定所述微博之間的相似度的步驟之前,還包括:
提取與所述給定實體相關聯的特征;
利用訓練好的有監督分類器來初步確定所述多個微博中的每個微博與所述給定實體的相關性;以及
根據初步確定結果來判斷是否有必要基于半監督分類器來確定所述多個微博中的每個微博與所述給定實體的相關性。
5.根據權利要求4所述的方法,其中,所述根據初步確定結果來判斷是否有必要基于半監督分類器來確定所述多個微博中的每個微博與所述給定實體的相關性的步驟包括:
對被確定為與所述給定實體不相關的微博的數量和相應的閾值進行比較;
如果被確定為與所述給定實體不相關的微博的數量小于所述閾值,則基于半監督分類器來確定所述多個微博中的每個微博與所述給定實體的相關性。
6.根據權利要求4所述的方法,其中,所述從所述節點中選擇一部分節點作為種子的步驟包括:
根據所述初步確定結果從所述節點中選擇一部分節點作為種子。
7.根據權利要求6所述的方法,其中,所述根據所述初步確定結果從所述多個節點中選擇一部分節點作為種子的步驟包括:
利用訓練好的有監督分類器確定每個微博與所述給定實體的相關性的置信度;以及
分別從與所述給定實體相關的微博中以及從與所述給定實體不相關的微博中選擇具有高置信度的微博作為種子。
8.根據權利要求4所述的方法,其中,所述有監督分類器為最大熵分類器或樸素貝葉斯分類器。
9.根據權利要求4所述的方法,其中,所述提取與所述給定實體相關聯的特征的步驟包括:
從以下頁面中的至少一個頁面中提取與所述給定實體相關聯的詞語作為特征:所述給定實體相關聯的實體主頁、具有網絡百科全書屬性的網頁、以及用于幫助用戶通過數個關鍵詞獲得相關關鍵詞的網頁。
10.一種確定多個微博中的每個微博與給定實體的相關性的裝置,包括:
微博特征提取單元,被配置為提取所述多個微博中的每個微博的特征;
相似度確定單元,被配置為根據所提取的特征確定所述微博之間的相似度;以及
相關性確定單元,被配置為利用所確定的所述微博之間的相似度,基于半監督分類器來確定所述多個微博中的每個微博與所述給定實體的相關性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士通株式會社,未經富士通株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110414476.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:恢復誤刪除文件的方法及移動終端
- 下一篇:數據存取方法





