[發(fā)明專利]選擇用于文本分割的語言的方法和系統(tǒng)有效
| 申請?zhí)枺?/td> | 201210288916.2 | 申請日: | 2005-09-28 |
| 公開(公告)號(hào): | CN102831107A | 公開(公告)日: | 2012-12-19 |
| 發(fā)明(設(shè)計(jì))人: | 杰拉德·以色列·埃爾巴茲;雅各布·L·曼德爾森 | 申請(專利權(quán))人: | 谷歌公司 |
| 主分類號(hào): | G06F17/27 | 分類號(hào): | G06F17/27 |
| 代理公司: | 中科專利商標(biāo)代理有限責(zé)任公司 11021 | 代理人: | 呂雁葭 |
| 地址: | 美國加利*** | 國省代碼: | 美國;US |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 選擇 用于 文本 分割 語言 方法 系統(tǒng) | ||
1.一種計(jì)算機(jī)實(shí)現(xiàn)的方法,包括:
在計(jì)算設(shè)備處接收字符串;
識(shí)別針對所述字符串的至少第一備選語言和第二備選語言;
通過計(jì)算設(shè)備將所述字符串至少分割為針對第一備選語言的第一分割結(jié)果和針對第二備選語言的第二分割結(jié)果,其中所述第一分割結(jié)果包括第一多個(gè)分割段,所述第二分割結(jié)果包括第二多個(gè)分割段;
使用確定一個(gè)或多個(gè)第一分割段的正確或優(yōu)選拼寫的拼寫檢查功能,來確定至少第一分割結(jié)果的拼寫修正后的分割結(jié)果;
確定第一分割結(jié)果在與第一備選語言相關(guān)聯(lián)的第一語料庫中的第一出現(xiàn)頻率、第二分割結(jié)果在與第二備選語言相關(guān)聯(lián)的第二語料庫中的第二出現(xiàn)頻率、和拼寫修正后的分割結(jié)果在與第一備選語言相關(guān)聯(lián)的第一語料庫中的第三出現(xiàn)頻率;以及
通過計(jì)算設(shè)備至少基于第一出現(xiàn)頻率、第二出現(xiàn)頻率和第三出現(xiàn)頻率來識(shí)別針對所述字符串的可操作的分割結(jié)果。
2.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中第一語料庫包括與第一備選語言相關(guān)聯(lián)的多個(gè)項(xiàng)目。
3.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中第一語料庫包括與第一備選語言相關(guān)聯(lián)的多個(gè)先前接收的搜索詢問。
4.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中確定第一出現(xiàn)頻率包括:
將第一分割結(jié)果作為搜索詢問發(fā)送到搜索引擎;以及
響應(yīng)于發(fā)送所述搜索詢問,接收包括響應(yīng)于所述搜索詢問的項(xiàng)目標(biāo)識(shí)符的搜索結(jié)果集。
5.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,還包括至少基于第一出現(xiàn)頻率、第二出現(xiàn)頻率和第三出現(xiàn)頻率來識(shí)別針對所述字符串的可操作語言。
6.一種計(jì)算機(jī)系統(tǒng),包括:
一個(gè)或多個(gè)計(jì)算機(jī)服務(wù)器設(shè)備,用于接收字符串;
所述一個(gè)或多個(gè)計(jì)算機(jī)服務(wù)器設(shè)備的語言處理器,用于識(shí)別針對所述字符串的至少第一備選語言和第二備選語言;
所述一個(gè)或多個(gè)計(jì)算機(jī)服務(wù)器設(shè)備的分割處理器,用于將所述字符串至少分割為針對第一備選語言的第一分割結(jié)果和針對第二備選語言的第二分割結(jié)果,其中所述第一分割結(jié)果包括第一多個(gè)分割段,所述第二分割結(jié)果包括第二多個(gè)分割段;以及
所述一個(gè)或多個(gè)計(jì)算機(jī)服務(wù)器設(shè)備的頻率處理器,用于:
使用確定一個(gè)或多個(gè)第一分割段的正確或優(yōu)選拼寫的拼寫檢查功能,來確定至少第一分割結(jié)果的拼寫修正后的分割結(jié)果;
確定第一分割結(jié)果在與第一備選語言相關(guān)聯(lián)的第一語料庫中的第一出現(xiàn)頻率、第二分割結(jié)果在與第二備選語言相關(guān)聯(lián)的第二語料庫中的第二出現(xiàn)頻率、和拼寫修正后的分割結(jié)果在與第一備選語言相關(guān)聯(lián)的第一語料庫中的第三出現(xiàn)頻率;以及
至少基于第一出現(xiàn)頻率、第二出現(xiàn)頻率和第三出現(xiàn)頻率來識(shí)別針對所述字符串的可操作的分割結(jié)果。
7.根據(jù)權(quán)利要求6所述的計(jì)算機(jī)系統(tǒng),其中第一語料庫包括與第一備選語言相關(guān)聯(lián)的多個(gè)項(xiàng)目。
8.根據(jù)權(quán)利要求6所述的計(jì)算機(jī)系統(tǒng),其中第一語料庫包括與第一備選語言相關(guān)聯(lián)的多個(gè)先前接收的搜索詢問。
9.根據(jù)權(quán)利要求6所述的計(jì)算機(jī)系統(tǒng),其中頻率處理器被配置為通過執(zhí)行以下功能來確定第一出現(xiàn)頻率:
將第一分割結(jié)果作為搜索詢問發(fā)送到搜索引擎;以及
響應(yīng)于發(fā)送所述搜索詢問,接收包括響應(yīng)于所述搜索詢問的項(xiàng)目標(biāo)識(shí)符的搜索結(jié)果集。
10.根據(jù)權(quán)利要求6所述的計(jì)算機(jī)系統(tǒng),其中頻率處理器還被配置為至少基于第一出現(xiàn)頻率、第二出現(xiàn)頻率和第三出現(xiàn)頻率來識(shí)別針對所述字符串的可操作語言。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于谷歌公司,未經(jīng)谷歌公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210288916.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





