[發(fā)明專利]一種中文搜索引擎中查詢?cè)~的拼寫校正方法有效
| 申請(qǐng)?zhí)枺?/td> | 200810224323.3 | 申請(qǐng)日: | 2008-10-17 |
| 公開(公告)號(hào): | CN101369285A | 公開(公告)日: | 2009-02-18 |
| 發(fā)明(設(shè)計(jì))人: | 周博;劉奕群;張敏;金奕江;馬少平 | 申請(qǐng)(專利權(quán))人: | 清華大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 北京三高永信知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 | 代理人: | 何文彬 |
| 地址: | 10008*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 中文搜索引擎 查詢 拼寫 校正 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)信息處理領(lǐng)域,特別涉及一種中文搜索引擎中查詢?cè)~的拼寫校正方法。
背景技術(shù)
隨著網(wǎng)絡(luò)在全球的普及,用戶與搜索引擎進(jìn)行交互的方式主要是:用戶將所要尋找的信息轉(zhuǎn)換成幾個(gè)查詢?cè)~,再將這些查詢?cè)~輸入到搜索引擎中,由搜索引擎完成信息的檢索并提交給用戶。
目前,對(duì)于中文搜索引擎用戶來說,使用英文已經(jīng)成為越來越不可避免的趨勢(shì)。大量的軟件名、地名以及網(wǎng)絡(luò)中不斷出現(xiàn)的新興詞語很多都需要用英文表達(dá)。用英文輔助中文表達(dá)用戶的檢索需求逐漸成為中文搜索引擎用戶的一種習(xí)慣。然而,在這個(gè)過程中如果用戶向搜索引擎提交的查詢?cè)~含有拼寫錯(cuò)誤,搜索引擎就會(huì)按照錯(cuò)誤的查詢?cè)~進(jìn)行信息的檢索,最后的結(jié)果是搜索引擎檢索不到用戶實(shí)際需要的信息,或者根本檢索不到信息。據(jù)統(tǒng)計(jì),輸入搜索引擎的查詢?cè)~中有10%-15%含有拼寫錯(cuò)誤。對(duì)于輸入中文搜索引擎的英文查詢?cè)~,拼寫錯(cuò)誤的比例要大于15%,這是由于中文搜索引擎用戶的母語一般為中文,英文作為非母語出錯(cuò)的可能性要比中文大很多。
另外在中文搜索引擎中,用戶輸入的英文查詢?cè)~不完全是英文單詞,其中相當(dāng)一部分是拼音串。出錯(cuò)的拼音串也會(huì)影響搜索引擎的檢索,導(dǎo)致搜索引擎檢索不到用戶實(shí)際需要的信息。
由于非母語的原因,中文搜索引擎用戶的英文輸入習(xí)慣與英文搜索引擎用戶的輸入習(xí)慣大為不同。許多對(duì)于英文搜索引擎來說正確的查詢?cè)~,對(duì)于中文搜索引擎用戶來說就是拼寫錯(cuò)誤。例如“goole”對(duì)于中文搜索引擎用戶來說應(yīng)該是查詢?cè)~“google”(谷歌)的錯(cuò)誤形式,而對(duì)于英文搜索引擎用戶來說“goole”卻是一個(gè)正確的查詢?cè)~,指的是英國(guó)的一個(gè)港口城市。另外,中文搜索引擎用戶的拼寫錯(cuò)誤較英文搜索引擎用戶也不盡相同,中文搜索引擎用戶的拼寫錯(cuò)誤的種類更多,形式更加復(fù)雜。
輸入中文搜索引擎的英文查詢?cè)~就種類來說可以分為:英文單詞與拼音串兩種。因此,拼寫錯(cuò)誤分為英文單詞錯(cuò)誤與拼音串錯(cuò)誤兩種。
對(duì)于中文搜索引擎用戶來說,英文單詞錯(cuò)誤除了包含一般英文搜索引擎用戶的輸入錯(cuò)誤(即知道如何拼寫但輸入錯(cuò)誤)之外,還包含了更多的因?yàn)檎J(rèn)知錯(cuò)誤引起的拼寫錯(cuò)誤(即不知道如何拼寫而引起的錯(cuò)誤)。
引起拼音串錯(cuò)誤的原因主要是模糊音與地方方言。表1中列出了一些比較常見的拼音串錯(cuò)誤。
表1:模糊音錯(cuò)別字分類
?
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué),未經(jīng)清華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810224323.3/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 帶有前處理和后處理的數(shù)據(jù)庫復(fù)合查詢系統(tǒng)及方法
- 數(shù)據(jù)庫查詢的方法和系統(tǒng)
- 查詢系統(tǒng)、查詢終端以及查詢方法
- 交易信息查詢方法、查詢裝置及查詢系統(tǒng)
- 數(shù)據(jù)查詢與結(jié)果生成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 在RDF數(shù)據(jù)集上進(jìn)行OPTIONAL查詢的方法及存儲(chǔ)介質(zhì)
- 一種多表關(guān)聯(lián)查詢方法、裝置及設(shè)備
- 一種基于Impala的查詢方法和裝置
- 從查詢生成子查詢
- 一種基于通用查詢語言的查詢方法及查詢系統(tǒng)





