[發明專利]主題區討論的自動發現聚集和組織有效
| 申請號: | 201110008374.4 | 申請日: | 2011-01-05 |
| 公開(公告)號: | CN102117321A | 公開(公告)日: | 2011-07-06 |
| 發明(設計)人: | P·R·貝利;D·R·施瓦茨 | 申請(專利權)人: | 微軟公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海專利商標事務所有限公司 31100 | 代理人: | 楊潔;錢靜芳 |
| 地址: | 美國華*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 主題 討論 自動 發現 聚集 組織 | ||
1.一個或多個存儲計算機可使用指令的計算機存儲介質,當該指令由一個或多個計算設備執行時使得所述一個或多個計算設備執行一種方法,所述方法包括:
接收包括一個或多個輸入搜索查詢的初始一組搜索查詢,所述一個或多個輸入搜索查詢被手動地確定為與給定主題區相關;
通過分析搜索引擎會話數據以標識與所述一個或多個輸入搜索查詢相關的多個附加搜索查詢,來生成已擴展的一組搜索查詢,所述擴展的一組搜索查詢包括所述一個或多個輸入搜索查詢和所述多個附加搜索查詢;
使用所述已擴展的一組搜索查詢以標識與所述給定主題區相關的多個URL;
周期性地爬行與所述多個URL相關聯的文檔,以提供來自所述URL的多個內容項;
使用分類器來從所述多個內容項標識相關的內容項,所述相關的內容項由所述分類器確定為與所述給定主題區相關;
將所述相關的內容項群集成多個聚類,每一聚類包括與所述給定主題區內的特定事件或主題相關聯的一組內容項,其中群集是至少部分地基于所述相關的內容項之間的超鏈接來執行的;
將所述多個聚類相對于彼此進行排名,其中所述多個聚類是至少部分地基于從社交網絡站點到與所述相關的內容項的URL的超鏈接的存在來排名的;以及
生成允許用戶查看并與所述多個聚類進行交互的用戶界面。
2.如權利要求1所述的一個或多個計算機存儲介質,其特征在于,使用所述已擴展的一組搜索查詢來標識與所述給定主題區相關的多個URL包括:基于所述已擴展的一組搜索查詢來分析搜索引擎會話數據和用戶web瀏覽數據以標識所述多個URL。
3.如權利要求1所述的一個或多個計算機存儲介質,其特征在于,還通過分析來自社交網絡的鏈接來進一步標識與所述給定主題區相關的多個URL。
4.如權利要求1所述的一個或多個計算機存儲介質,其特征在于,所述分類器是通過爬行所述URL的至少一部分以獲取內容并基于該內容生成所述給定主題區的語言模型來創建的。
5.如權利要求4所述的一個或多個計算機存儲介質,其特征在于,所述分類器包括以下至少一個:使用N元語法特征的線性分類器;使用N元語法特征的決策樹分類器;以及使用N元語法特征的隱馬爾科夫模型。
6.如權利要求1所述的一個或多個計算機存儲介質,其特征在于,將所述相關的內容項群集成所述多個聚類還至少部分地基于自組織群集,其中分析所述相關的內容項的文本以標識所述相關的內容項之間的關系。
7.如權利要求6所述的一個或多個計算機存儲介質,其特征在于,將所述相關的內容項群集成所述多個聚類還至少部分地基于所述相關的內容項的發布時間。
8.如權利要求1所述的一個或多個計算機存儲介質,其特征在于,將所述多個聚類相對于彼此進行排名至少部分地基于從以下各項選出的一個或多個項:所述相關內容項的發布時間;每一聚類的大小;每一相關的內容項的源的排名;搜索引擎會話數據;以及用戶web瀏覽信息。
9.如權利要求1所述的一個或多個計算機存儲介質,其特征在于,所述用戶界面,為每一聚類,提供主內容項和多個相關的內容項。
10.如權利要求1所述的一個或多個計算機存儲介質,其特征在于,至少一個聚類的主內容項是通過分析該至少一個聚類中的每一內容項的發布時間以及該至少一個聚類內的內容項之間的超鏈接關系來標識的。
11.如權利要求1所述的一個或多個計算機存儲介質,其特征在于,所述方法還包括將來自超鏈接到至少一個聚類中的至少一個URL的社交網絡站點的引用添加到該至少一個聚類。
12.如權利要求1所述的一個或多個計算機存儲介質,其特征在于,對多個主題區重復所述方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于微軟公司,未經微軟公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110008374.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:汽車碰撞能量磁場吸收器
- 下一篇:一種遠程統計小物體的方法及其裝置





