[發(fā)明專利]信息檢索系統(tǒng)中基于短語的搜索有效
| 申請(qǐng)?zhí)枺?/td> | 201110200364.0 | 申請(qǐng)日: | 2005-07-26 |
| 公開(公告)號(hào): | CN102226900A | 公開(公告)日: | 2011-10-26 |
| 發(fā)明(設(shè)計(jì))人: | 安娜·林恩·帕特森 | 申請(qǐng)(專利權(quán))人: | 咕果公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 北京律盟知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11287 | 代理人: | 王允方 |
| 地址: | 美國加利*** | 國省代碼: | 美國;US |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 信息 檢索系統(tǒng) 基于 短語 搜索 | ||
分案申請(qǐng)的相關(guān)信息
本申請(qǐng)為發(fā)明名稱為“信息檢索系統(tǒng)中基于短語的搜索”的原中國發(fā)明專利申請(qǐng)的分案申請(qǐng)。原申請(qǐng)的申請(qǐng)?zhí)枮?00510085371.5;原申請(qǐng)的申請(qǐng)日為2005年7月26日;原發(fā)明專利申請(qǐng)案的優(yōu)先權(quán)日為2004年7月26日。
相關(guān)申請(qǐng)的交叉參考
2004年7月26日申請(qǐng)的申請(qǐng)案第10/900,021號(hào)“Phrase?Identification?in?an?Information?Retrieval?System”;
2004年7月26日申請(qǐng)的申請(qǐng)案第10/900,055號(hào)“Phrase-Based?Indexing?in?an?Information?Retrieval?System”;
2004年7月26日申請(qǐng)的申請(qǐng)案第10/900,039號(hào)“Phrase-Based?Personalization?of?Searches?in?an?Information?Retrieval?System”;
2004年7月26日申請(qǐng)的申請(qǐng)案第10/900,259號(hào)“Automatic?Taxonomy?Generation?in?Search?Results?Using?Phrases”;
2004年7月26日申請(qǐng)的申請(qǐng)案第10/900,075號(hào)“Phrase-Based?Generation?of?Document?Descriptions”;及
2004年7月26日申請(qǐng)的申請(qǐng)案第10/900,012號(hào)“Phrase-Based?Detection?of?Duplicate?Documents?in?an?Information?Retrieval?System”;
所有這些申請(qǐng)案被共同擁有并且以引用的方式并入本文中。
技術(shù)領(lǐng)域
本發(fā)明涉及一種用于對(duì)諸如互聯(lián)網(wǎng)(Internet)的大規(guī)模語料庫中的文獻(xiàn)編制索引、搜索與分類的信息檢索系統(tǒng)。
背景技術(shù)
信息檢索系統(tǒng)通常稱作搜索引擎,如今它們是一種用于在諸如互聯(lián)網(wǎng)的大規(guī)模、多樣化并不斷增長的語料庫中尋找信息的基本工具。一般來說,搜索引擎創(chuàng)建索引以使文獻(xiàn)(或“頁”)與各文獻(xiàn)中存在的個(gè)別字相關(guān)。響應(yīng)一含有多個(gè)查詢項(xiàng)的查詢來檢索文獻(xiàn),此通常是基于在文獻(xiàn)中存在一定數(shù)量的查詢項(xiàng)而實(shí)現(xiàn)的。根據(jù)諸如查詢項(xiàng)出現(xiàn)的頻率、主域、鏈接分析等其它統(tǒng)計(jì)度量來對(duì)檢索到的文獻(xiàn)分等級(jí)。然后,通常按分等級(jí)后的次序?qū)z索到的文獻(xiàn)呈現(xiàn)給用戶,而不進(jìn)行任何其他分組或強(qiáng)制分級(jí)。在某些狀況下,僅呈現(xiàn)文獻(xiàn)文本的選定部分以便使用戶能夠粗略了解所述文獻(xiàn)的內(nèi)容。
查詢項(xiàng)的直接“布爾(Boolean)”匹配具有多個(gè)熟知的限制,并且尤其無法識(shí)別那些不具有查詢項(xiàng)但具有相關(guān)字的文獻(xiàn)。舉例來說,在典型的布爾系統(tǒng)中,搜索“Australian?Shepherds(澳大利亞牧羊犬)”時(shí)將不會(huì)返回不具有確切查詢項(xiàng)的關(guān)于其它herding?dogs(牧羊犬)(例如,Border?Collies(博得牧羊犬))的文獻(xiàn)。反而,所述系統(tǒng)通常可能同時(shí)檢索到關(guān)于Australia(澳大利亞)(并且與dogs(狗)無關(guān))的文獻(xiàn)與關(guān)于“shepherds(牧羊犬)”的文獻(xiàn),并且將這些文獻(xiàn)排在較高等級(jí)。
這里的問題是傳統(tǒng)的系統(tǒng)是根據(jù)個(gè)別項(xiàng)而不是概念來編制文獻(xiàn)索引。概念通常以短語表示,如“Australian?Shepherd(澳大利亞牧羊犬)”、“President?of?the?United?States(美國總統(tǒng))”或者“Sundance?Film?Festival(圣丹斯電影節(jié))”等。某些現(xiàn)有系統(tǒng)最多是就預(yù)定且非常有限的“已知”短語集合來編制文獻(xiàn)索引,這些“已知”短語一般是由人工操作員選擇的。因?yàn)椴煊X到識(shí)別由(比如)三個(gè)、四個(gè)或五個(gè)或更多個(gè)字組成的所有可能的短語需要計(jì)算與存儲(chǔ)器,所以一般會(huì)避免對(duì)短語編制索引。舉例來說,如果假定任意五個(gè)字可構(gòu)成一個(gè)短語并且一個(gè)大的語料庫將具有至少200,000個(gè)唯一項(xiàng),那么將存在約3.2*1026個(gè)可能短語,此明顯超出任何現(xiàn)有系統(tǒng)能夠存儲(chǔ)于存儲(chǔ)器中的量或者其可另外編程操縱的量。另一個(gè)問題是短語不斷輸入并會(huì)超出其在詞典中的用法,此比發(fā)明新的個(gè)別字頻繁得多。新短語總是從諸如技術(shù)、藝術(shù)、世界事件與法律等來源中產(chǎn)生。其它短語將隨時(shí)間降低使用。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于咕果公司,未經(jīng)咕果公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110200364.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種氣泡鼻托及其制造方法
- 下一篇:一種鰻魚棲息架
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置
- 一種檢索網(wǎng)站首頁的檢索系統(tǒng)及方法
- 影像檢索系統(tǒng)的光路布局及其達(dá)成方法
- 驗(yàn)證信息存儲(chǔ)和檢索系統(tǒng)的配置的設(shè)備和方法
- 一種信息檢索系統(tǒng)評(píng)測方法和裝置
- 一種檢索系統(tǒng)的檢測方法和裝置
- 一種基于網(wǎng)絡(luò)的計(jì)算機(jī)信息檢索系統(tǒng)
- 文本域圖像檢索系統(tǒng)和方法
- 一種數(shù)字病理圖像檢索系統(tǒng)
- 檢索方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 人臉檢索系統(tǒng)的評(píng)價(jià)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 基于組合的短語規(guī)則抽取方法
- 同義短語的挖掘方法和裝置及搜索相關(guān)內(nèi)容的方法和裝置
- 一種短語輸入方法及終端設(shè)備
- 一種電子病歷高質(zhì)短語抽取方法
- 信息提供裝置、終端裝置、信息提供系統(tǒng)以及信息提供方法
- 標(biāo)簽短語處理和相似度計(jì)算方法及裝置,電子和存儲(chǔ)設(shè)備
- 圖像描述方法及裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 關(guān)鍵詞提取方法、裝置及存儲(chǔ)介質(zhì)
- 一種基于平滑短語主題模型的主題提取方法及裝置
- 在自動(dòng)化配音場景中實(shí)現(xiàn)短語音同步的方法和裝置





