[發明專利]一種中文搜索引擎中查詢詞的拼寫校正方法有效
| 申請號: | 200810224323.3 | 申請日: | 2008-10-17 |
| 公開(公告)號: | CN101369285A | 公開(公告)日: | 2009-02-18 |
| 發明(設計)人: | 周博;劉奕群;張敏;金奕江;馬少平 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 | 代理人: | 何文彬 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中文搜索引擎 查詢 拼寫 校正 方法 | ||
1.一種中文搜索引擎中查詢詞的拼寫校正方法,其特征在于,所述方法包括:
判斷輸入中文搜索引擎的英文查詢詞是否為正確的英文查詢詞;
對非正確的英文查詢詞,生成所述非正確的英文查詢詞的候選形式,按照預設規則將所述候選形式列入候選集合;
根據
α*Edsim/max(Edsim)+β*LogSim/max(LogSim)
+(1-α-β)*ErrorTrend/max(ErrorTrend)
,對所述候選集合中的所有候選形式進行評分,將分值最高的候選形式作為校正后的形式返回給用戶;
其中,EdSim代表字型相似性特征,LogSim代表詞頻相似性特征,ErrorTrend代表錯誤傾向性特征,max()表示對括號內的特征取最大值,α代表字型相似性特征在公式中的所占的比重,β代表詞頻相似性特征在公式中的所占的比重。
2.根據權利要求1所述的方法,其特征在于,根據預先存儲的置信詞表判斷輸入中文搜索引擎的英文查詢詞是否為正確的英文查詢詞。
3.根據權利要求1所述的方法,其特征在于,對非正確的英文查詢詞,根據預先設定的方式生成所述非正確的英文查詢詞的候選形式;所述預先設定的方式包括以下方式及其任意組合:
在輸入的查詢詞中插入一個字符;
在輸入的查詢詞中刪除一個字符;
在輸入的查詢詞中替換一個字符;
交換查詢詞中相鄰兩個字符的位置;
在輸入的查詢詞中,將一個字符與其位置靠后且相隔一個字符位置的字符交換位置;
在輸入的查詢詞中,將一個字符與其位置相鄰且靠后的兩個字符交換位置;
在輸入的查詢詞中,兩個相鄰字符與其位置相鄰且靠后的一個字符交換位置。
4.根據權利要求3所述的方法,其特征在于,對非正確的英文查詢詞,根據預先設定的方式生成所述非正確的英文查詢詞的候選形式之后,對所述候選形式再次根據所述預先設定的方式生成所述非正確的英文查詢詞的候選形式。
5.根據權利要求1所述的方法,其特征在于,所述預設規則包括:
字符長度大于3的英文查詢詞第一個字符是正確形式;
候選集合中只收錄在搜索引擎日志中出現過的候選形式。
6.根據權利要求1所述的方法,其特征在于,所述方法還包括:
判斷輸入搜索引擎的英文查詢內容是否在校正緩存詞表中,若所述英文查詢內容在所述校正緩存詞表中,將所述緩存詞表中的校正形式返回給用戶。
7.根據權利要求1或6所述的方法,其特征在于,所述方法還包括:
對輸入搜索引擎的查詢內容進行分隔。
8.根據權利要求7所述的方法,其特征在于,對分隔后得到的查詢詞選擇對應的校正模式,所述對應的校正模式包括單查詢詞校正模式、雙查詢詞校正模式和多查詢詞校正模式。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810224323.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:網絡管理瀏覽器
- 下一篇:長江口牡蠣礁構建方法





