[發明專利]選擇用于文本分割的語言的方法和系統有效
| 申請號: | 201210288916.2 | 申請日: | 2005-09-28 |
| 公開(公告)號: | CN102831107A | 公開(公告)日: | 2012-12-19 |
| 發明(設計)人: | 杰拉德·以色列·埃爾巴茲;雅各布·L·曼德爾森 | 申請(專利權)人: | 谷歌公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 呂雁葭 |
| 地址: | 美國加利*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 選擇 用于 文本 分割 語言 方法 系統 | ||
本申請是2005年9月28日提交的申請號為200580041137.0的題為“選擇用于文本分割的語言的方法和系統”的發明專利申請的分案申請。
技術領域
本發明涉及文本分割,更具體地講,涉及對文本分割的語言進行選擇。
背景技術
已經存在了試圖解譯表示文本的數據的文本處理方法和系統。在接收到沒有指示單詞或其它分割段(token)的分隔符的、由字符串組成的文本時,進行文本處理更加困難。當使用現有方法和系統處理這種字符串時,為了解譯字符串,可以將字符分割為分割段。分割段可以是單詞、首字母縮寫、縮略語、適當名稱、地理名稱、股票市場交易符號或其它分割段。通常,可以使用現有的方法和系統,將字符串分割為分割字符串的多個組合。在對文本進行分割時選擇使用正確的語言可以產生更加有意義的結果。
發明內容
本發明的實施例包括選擇用于文本分割的語言的方法和系統。本發明的一個實施例包括識別與字符串相關聯的至少第一備選語言和第二備選語言;從該字符串確定與第一備選語言相關聯的第一分割結果,并從該字符串確定與第二備選語言相關聯的第二分割結果;為第一分割結果確定第一出現頻率,和為第二分割結果確定第二出現頻率;以及至少部分地基于第一出現頻率和第二出現頻率,從第一備選語言和第二備選語言來識別可行的語言。
所提到的該示例性實施例并不限制或限定本發明,而是提供了有助于理解本發明實施例的示例。在具體實施方式中對示例性實施例進行了討論,并提供了對本發明進一步的描述。通過核對說明書,可以進一步理解本發明的各個實施例所提供的優點。
附圖說明
當參照附圖閱讀以下具體實施方式時,可以更好地理解本發明的這些和其它特征、方面和優點,其中:
圖1示出了根據本發明一個實施例的系統示意圖;以及
圖2示出了由本發明執行的方法的一個實施例的流程圖。
具體實施方式
引言
本發明的實施例包括選擇用于文本分割的語言的方法和系統。本發明具有多個實施例。通過引言和示例,本發明的一個示例性實施例提供了通過為字符串選擇正確的語言,來改進將諸如域名之類的字符串分割為多個分割段或單詞的方法。可以基于各種信號,例如,與該字符串相關聯的語言、與用戶相關聯的IP地址、用于字符串的字符集、與用戶相關聯的瀏覽器應用程序的瀏覽器設置、以及與該字符串相關聯的任何最高層域,來選擇用于該字符串的多種潛在或備選語言。可以使用每種備選語言將字符串分割為許多分割結果。每個分割結果可以是單詞或其它分割段的特定組合。例如,可以針對英語語言將字符串“usedrugs”分割為以下分割結果:“used?rugs”,“use?drugs”,“us?edrugs”等。根據針對每種備選語言的分割結果的數目,可以根據包含可行的分割后結果的可行語言中的文檔或搜索疑問的數目來識別可行的分割結果和可行的語言。
例如,可以為每種備選語言選擇成為最可行分割結果的可能性最高的分割結果。搜索引擎可以確定包含所選擇的分割結果的文檔或搜索疑問的數目,并且可以為每種備選語言的每個所選分割結果都這樣做。在一個實施例中,可以將在特定語言的文檔或搜索疑問中以出現頻率最大分割結果識別為最可行的分割結果。可以將與最可行的分割結果相關聯的語言識別為最可行的語言。用于確定備選語言的語言信號也可以用于選擇可行的語言。可行的分割結果和可行的語言可以被用于各種功能,包括基于語言和結果選擇廣告。
給出該引言以將讀者引導至該申請的一般技術主題。這并不意味著將本發明限制于該技術主題。以下對示例性實施例進行描述。系統架構
可以構造根據本發明的各種系統。圖1是示出了可以在其中執行本發明示例性實施例的示例性系統的示意圖。本發明同樣可以操作并體現于其它系統。
現在參照附圖,在所有多個附圖中,類似的數字指示類似的單元,圖1是示出了實施本發明實施例的示例性環境的示意圖。圖1中所示的系統100包括通過網絡106與服務器設備104和服務器設備150通信的多個客戶機設備102a-n。在一個實施例中,所示的網絡106包括因特網。在其它實施例中,可以使用諸如內聯網、WAN或LAN之類的其它網絡。此外,根據本發明的方法可以在單個計算機內工作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于谷歌公司,未經谷歌公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210288916.2/2.html,轉載請聲明來源鉆瓜專利網。





