[發(fā)明專利]局部項(xiàng)目提取無(wú)效
| 申請(qǐng)?zhí)枺?/td> | 200580048639.6 | 申請(qǐng)日: | 2005-12-30 |
| 公開(kāi)(公告)號(hào): | CN101128819A | 公開(kāi)(公告)日: | 2008-02-20 |
| 發(fā)明(設(shè)計(jì))人: | 邁克爾·丹尼斯·賴?yán)?/a> | 申請(qǐng)(專利權(quán))人: | 谷歌公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 中原信達(dá)知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 | 代理人: | 鄭立;車文 |
| 地址: | 美國(guó)加利*** | 國(guó)省代碼: | 美國(guó);US |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 局部 項(xiàng)目 提取 | ||
技術(shù)領(lǐng)域
這里所述的實(shí)施例總體上涉及信息檢索,并且更具體地涉及與地址相關(guān)的企業(yè)信息的識(shí)別。
背景技術(shù)
萬(wàn)維網(wǎng)(“web”)包括大量信息。然而,定位信息的期望部分是有難度的。該問(wèn)題是多方面的,因?yàn)榫W(wǎng)絡(luò)上的信息量和對(duì)網(wǎng)絡(luò)搜索沒(méi)有經(jīng)驗(yàn)的新用戶數(shù)量都在快速增加。
搜索引擎試圖返回指向用戶感興趣網(wǎng)頁(yè)的超鏈接。一般而言,搜索系統(tǒng)對(duì)用戶興趣的確定基于用戶輸入的搜索詞語(yǔ)(稱為搜索查詢)。搜索系統(tǒng)的目標(biāo)是根據(jù)搜索查詢將高質(zhì)量的相關(guān)結(jié)果(例如,網(wǎng)頁(yè))的鏈接提供給用戶。通常,搜索系統(tǒng)通過(guò)把搜索查詢中的詞語(yǔ)與預(yù)存儲(chǔ)網(wǎng)頁(yè)語(yǔ)料庫(kù)相匹配而實(shí)現(xiàn)上述目的。包含用戶搜索詞語(yǔ)的網(wǎng)頁(yè)被“命中”并作為鏈接返回給用戶。
局部搜索系統(tǒng)試圖返回特定地理區(qū)域內(nèi)的相關(guān)網(wǎng)頁(yè)和/或企業(yè)登記信息。當(dāng)在網(wǎng)頁(yè)上提及企業(yè)時(shí),現(xiàn)有的局部搜索系統(tǒng)會(huì)匹配該企業(yè)與黃頁(yè)數(shù)據(jù)以識(shí)別對(duì)應(yīng)的企業(yè)登記信息。然而,當(dāng)不存在黃頁(yè)數(shù)據(jù)或黃頁(yè)數(shù)據(jù)對(duì)企業(yè)不準(zhǔn)確時(shí),上面的技術(shù)不能實(shí)施。
發(fā)明內(nèi)容
根據(jù)一方面,一種方法包括識(shí)別包括地址的文檔、定位文檔內(nèi)的企業(yè)信息、并向該企業(yè)信息指定置信度得分,其中置信度得分與該企業(yè)信息與該地址相關(guān)的概率有關(guān)。該方法也包括根據(jù)指定的置信度得分確定是否把企業(yè)信息和地址相關(guān)聯(lián)。
根據(jù)另一方面,一種方法包括識(shí)別包括地址的文檔、識(shí)別文檔中地址前面的詞語(yǔ)集、并確定每個(gè)詞語(yǔ)是與地址相關(guān)的名號(hào)的一部分的概率。該方法也包括根據(jù)具有高概率是與地址相關(guān)的名號(hào)的一部分的一個(gè)或多個(gè)詞語(yǔ)而識(shí)別候選名號(hào)、向候選名號(hào)指定置信度得分、并根據(jù)指定的置信度得分確定是否把候選名號(hào)和地址相關(guān)聯(lián)。
根據(jù)另一方法,一種方法包括識(shí)別包括地址的文檔、識(shí)別文檔中的候選電話號(hào)碼集合、確定在候選電話號(hào)碼集合中的每個(gè)候選電話號(hào)碼與地址相關(guān)的概率、并根據(jù)確定的概率確定是否把候選電話號(hào)碼之一和地址相關(guān)聯(lián)。
根據(jù)另一方面,一種方法包括識(shí)別包括地標(biāo)(landmark)的網(wǎng)頁(yè)、識(shí)別網(wǎng)頁(yè)中的屬性、并向?qū)傩灾付ㄖ眯哦鹊梅郑渲兄眯哦鹊梅稚婕皩傩耘c地標(biāo)相關(guān)的概率。該方法也包括根據(jù)指定的置信度得分而確定是否把屬性和地標(biāo)相關(guān)聯(lián)。
附圖說(shuō)明
結(jié)合在說(shuō)明書(shū)中并構(gòu)成本說(shuō)明書(shū)一部分的相應(yīng)附圖用于解釋本發(fā)明的實(shí)施例,并結(jié)合說(shuō)明書(shū)解釋本發(fā)明。在圖中:
圖1是包括地址的示例文檔的示意圖;
圖2是其中實(shí)施符合本發(fā)明原理的系統(tǒng)和方法的網(wǎng)絡(luò)的示例性示意圖;
圖3是根據(jù)符合本發(fā)明原理的實(shí)施例的圖2的客戶端或服務(wù)器的示例性示意圖;
圖4是根據(jù)符合本發(fā)明原理的實(shí)施例的訓(xùn)練系統(tǒng)的示例性示意圖;
圖5是根據(jù)符合本發(fā)明原理的實(shí)施例用于訓(xùn)練統(tǒng)計(jì)模型的示例性處理的流程圖;
圖6是根據(jù)符合本發(fā)明原理的實(shí)施例的局部項(xiàng)提取器的示例性示意圖;
圖7是根據(jù)符合本發(fā)明原理的實(shí)施例的用于識(shí)別與地址相關(guān)聯(lián)的企業(yè)名(名號(hào))的示例性處理的流程圖;
圖8是根據(jù)符合本發(fā)明原理的實(shí)施例的用于識(shí)別與地址相關(guān)聯(lián)的電話號(hào)碼的示例性處理的流程圖;以及
圖9-15是解釋根據(jù)符合本發(fā)明原理的實(shí)施例的對(duì)示例性文檔執(zhí)行的示例性處理的示意圖。
具體實(shí)施方式
本發(fā)明的以下詳細(xì)說(shuō)明參考相應(yīng)附圖。在不同描述中的相同附圖標(biāo)記是指相同或相似的組件。同樣,以下詳細(xì)說(shuō)明并不限制本發(fā)明。
概況
局部搜索涉及識(shí)別與特定地理區(qū)域相關(guān)的企業(yè)登記信息。萬(wàn)維網(wǎng)包括數(shù)十億的文檔,其中許多提及企業(yè)。識(shí)別盡可能與許多不同企業(yè)相關(guān)的企業(yè)信息對(duì)于局部搜索系統(tǒng)是有利的。經(jīng)常,黃頁(yè)數(shù)據(jù)與企業(yè)相關(guān)聯(lián)。然而,有時(shí)在沒(méi)有黃頁(yè)數(shù)據(jù)或黃頁(yè)數(shù)據(jù)可能不準(zhǔn)確的情況下在文檔中提及企業(yè)。
符合本發(fā)明原理的系統(tǒng)和方法識(shí)別與網(wǎng)頁(yè)文檔中提及的地址相關(guān)的企業(yè)信息。在一個(gè)實(shí)施例中,企業(yè)信息包括與地址相關(guān)的企業(yè)名。在另一個(gè)實(shí)施例中,企業(yè)信息包括與地址相關(guān)的電話號(hào)碼。在另一實(shí)施例中,企業(yè)信息包括另外類型的信息,諸如企業(yè)營(yíng)業(yè)時(shí)間或到與地址相關(guān)的企業(yè)的網(wǎng)站或地圖的鏈接。
圖1是包括地址的示例文檔的示意圖。如圖所示,該文檔與位于賓夕法尼亞州oakmont的餐館Veltri’s比薩餅店的評(píng)論相關(guān)聯(lián)。可以分析文檔,確定該文檔包括郵政地址(即,123Allegheny?Avenue,Oakmont,PA)。假設(shè)Veltri’s不具有任何相關(guān)的黃頁(yè)數(shù)據(jù)或具有可能不正確的黃頁(yè)數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于谷歌公司,未經(jīng)谷歌公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200580048639.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種項(xiàng)目信息處理方法及系統(tǒng)
- 軟件項(xiàng)目管理方法、終端及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于微信公眾號(hào)的線上項(xiàng)目申請(qǐng)審批的方法及系統(tǒng)
- 一種項(xiàng)目管理系統(tǒng)及方法
- 一種建筑項(xiàng)目綜合管理系統(tǒng)
- 一種項(xiàng)目管理方法、裝置及設(shè)備
- 項(xiàng)目管理方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 項(xiàng)目管理系統(tǒng)、方法、計(jì)算機(jī)設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種電力項(xiàng)目業(yè)務(wù)中臺(tái)及其微服務(wù)系統(tǒng)
- 一種基于標(biāo)簽確定項(xiàng)目成員的方法、裝置以及存儲(chǔ)介質(zhì)





