[發明專利]用于查找語義相關的搜索引擎詢問的方法無效
| 申請號: | 200680014980.4 | 申請日: | 2006-04-21 |
| 公開(公告)號: | CN101171568A | 公開(公告)日: | 2008-04-30 |
| 發明(設計)人: | S·智恩;N·伊莫里卡 | 申請(專利權)人: | 微軟公司 |
| 主分類號: | G06F7/00 | 分類號: | G06F7/00;G06F17/30 |
| 代理公司: | 上海專利商標事務所有限公司 | 代理人: | 顧嘉運 |
| 地址: | 美國華*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 查找 語義 相關 搜索引擎 詢問 方法 | ||
發明人
Steve?Chien
Nicole?lmmorlica
發明背景
發明領域
本發明涉及用于查找語義相關的搜索引擎詢問的方法。
相關領域的描述
在線搜索引擎為以結構化且有區分的方案訪問因特網上可用的海量信息提供了一個強有力的工具。諸如MSN、Google和Yahoo!之類的流行搜索引擎每天為上千萬的信息詢問服務。典型的搜索引擎由一組協作的程序操作,這些程序包括聚集來自萬維網上的各網頁的信息以創建用于搜索引擎索引的條目的網絡蜘蛛(spider)(也被稱為“網絡爬蟲(crawler)”或“bot”);從已被閱讀的文件中創建該索引的索引程序;以及接收搜索詢問,將其與索引上的各項條目相比較并返回適于該搜索詢問的結果的搜索程序。
當前在搜索引擎技術領域中的一個重要研究方向是如何改善給定搜索詢問結果的效率和質量。所謂的基于概念的搜索涉及對各種搜索準則進行統計學分析以識別并建議與輸入搜索詢問高度語義相關的可選搜索詢問。識別可選的、高度相關的搜索詢問有助于集中并改善給定搜索的搜索結果。此外,公司和廣告商會在輸入特定詢問的情況下呈現廣告。這將非常有利于這些公司和廣告商把它們的廣告與特定的詢問以及其他語義相關的詢問相關聯。
在利用基于概念的現有技術的搜索系統示例中,取決于各詢問內返回結果相同程度而將各詢問相關在一起。于是,如果第一和第二詢問返回幾乎相同的搜索結果,則可以認為這兩個詢問彼此高度相關。基于概念的搜索的一個示例在H.Daume和E.Brill為Human?Language?Technology?Conference/North?American?Chapter?ofthe?Association?for?Computational?Linguistics(HTUNAACL),Boston,MA(2004)發布的題為“Web?Search?Intent?Induction?via?Automatic?Query?Reformulation”的論文中有所闡述。
基于概念的搜索的另一個示例檢查click-through數據作為相關搜索詢問的指示符。這一模型觀察來自不同搜索詢問結果的clicked-on的鏈接。如果兩個不同的詢問導致用戶點擊相同的URL,則可認為這兩個詢問高度相關。click-through的基于概念的搜索的一個示例在D.Beeferman和A.Berger為Sixth?ACM?SIGKDDInternational?Conference?on?Knowledge?Discovery?and?Data?Mining,Boston,MA(2000)發布的題為“Agglomerative?Clustering?of?a?Search?Engine?Query?Log”的論文中有所闡述。
另一種有前途的基于語義的搜索技術涉及分析輸入詢問本身以揭示特定時序上的模式、趨勢及周期性。例如,Vlachos,M.、Meek,C、Vagena,Z.和Gunopulos,D.為International?Conference?on?Management?of?Data(SIGMOD),Paris,France(2004)發布的題為“Identifying?Similarities,Periodicities?and?Bursts?for?Online?SearchQueries”的論文(Vlachos等人),該論文全文結合在此作為參考。Vlachos等人注意到不同的事件具有不同的瞬態搜索頻率。例如,詢問“電影院”的頻率在每周末有一峰值,而詢問“復活節”的頻率在每年春天形成一單峰并在隨后突然下降。瞬態相關后面的理論是如果兩個搜索詢問呈現足夠類似的瞬態模式,則它們很有可能是語義相關的。Vlachos等人使用存儲在與搜索引擎(在他們的研究中是MSN)相關聯的一個或多個服務器上的詢問日志來為每個實際詢問建立時間序列,在其中該時間序列的各元素是在給定的一天內詢問被搜索的次數。
使用傅立葉分析,Vlachos等人通過傅立葉系數表現出了詢問頻率隨時間變化的瞬態周期性,并在隨后應用時間序列匹配技術來識別帶有極類似瞬態模式的其他詢問。他們利用的匹配技術基于傅里葉系數之間的歐幾里德距離(Euclideandistance)來測量瞬態相似性。在此框架下,他們描述了一種使用有關每個詢問的若干最佳傅立葉系數查找給定詢問的最類似詢問的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于微軟公司,未經微軟公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200680014980.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:可縮回的針裝置
- 下一篇:制作復合材料測試葉片的方法





