[發明專利]檢索應用中基于拼音的檢索條件糾錯提示處理方法有效
| 申請號: | 201210228101.5 | 申請日: | 2012-06-30 |
| 公開(公告)號: | CN103514236B | 公開(公告)日: | 2017-06-09 |
| 發明(設計)人: | 劉磊;熊小鵬 | 申請(專利權)人: | 重慶新媒農信科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 重慶博凱知識產權代理有限公司50212 | 代理人: | 張先蕓 |
| 地址: | 401121 重慶市北部新區高新*** | 國省代碼: | 重慶;85 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 檢索 應用 基于 拼音 條件 糾錯 提示 處理 方法 | ||
技術領域
本發明涉及計算機通信網絡技術和檢索應用技術領域,具體涉及一種檢索應用中基于拼音的檢索條件糾錯提示處理方法。
背景技術
在信息化社會中,搜索引擎作為獲取信息的主要方式之一,自其問世以來便引起人們的普遍關注。搜索引擎是指以網絡的各種信息資源為對象,以信息檢索的方式提供用戶所需信息的數據服務系統,其通過特定的計算機應用程序定時在互聯網上搜集信息,并對搜集到的信息提取、整合、建立索引之后,為用戶提供檢索服務。隨著信息量的爆炸式增長,大眾化搜索引擎的使用率持續提高,人們對搜索引擎的人機交互性能的要求也隨之提高,因此,業界逐漸關注搜索引擎的容錯技術。搜索引擎容錯技術是指用戶在輸入關鍵字進行檢索時,如果搜索引擎在返回結果中計算出與此關鍵詞相似的另一形式詞條得到大量的搜索結果,用戶將會在搜索結果頁面看到系統推測提供的關鍵詞項。目前,搜索引擎支持的用戶檢索錯誤主要包括:同音別字錯誤、模糊音別字錯誤等。同音別字錯誤是指由于用戶在輸入正確拼音(不包括聲調)后由于粗心或無法確定字形而選擇與目標檢索詞具有相同拼音的錯誤漢字。模糊音別字錯誤是指由于地域特色等原因使用戶輸入目標檢索詞的相似拼音的錯誤漢字。
現有技術中,搜索引擎容錯式檢索的常用解決方案通常是基于統計的糾錯提示處理,即通過特定算法(例如N-gram)計算作為檢索條件的詞條與提示詞庫中所有提示詞的匹配度,從而獲取較優的糾錯提示結果返回給用戶。但這種糾錯提示處理方式,要檢索到匹配的糾錯提示結果,需要遍歷匹配整個提示詞庫中所有的提示詞,匹配次數過多導致了糾錯提示處理的整體耗時較長,糾錯提示處理效率和響應速度較低,影響了用戶對糾錯提示功能的使用體驗感。
發明內容
針對現有技術中存在的上述不足,本發明提供一基于拼音的檢索條件糾錯提示處理方法,一方面的目的在于針對拼音輸入法輸入漢字檢索條件時出現的輸入錯誤提供糾錯提示,以實現搜索引擎容錯式檢索;另一方面的目的在于,提升搜索引擎對檢索條件的糾錯提示處理效率和響應速度。
為實現上述目的,本發明采用了如下技術手段:
基于拼音的檢索條件糾錯提示處理方法,包括:在用戶輸入檢索條件時,若作為檢索條件的詞條不是提示詞庫中的提示詞,則獲取作為檢索條件的詞條并轉化為對應的拼音字符串,從預先建立的提示詞拼音字典樹中查找與作為檢索條件的詞條對應的拼音字符串相匹配的拼音字符路徑,將相匹配的拼音字符路徑末節點預設的同音指針所指向的詞表中記錄的提示詞作為糾錯提示結果,返回給用戶。
作為進一步優化方案,所述“在用戶輸入檢索條件”之前,還包括:預先建立提示詞拼音字典樹;所述提示詞拼音字典樹包含有提示詞庫中各個提示詞對應的拼音字符串所構成的拼音字符路徑;所述提示詞拼音字典樹中,在每一個提示詞對應的拼音字符串所構成的拼音字符路徑的末節點,預設有用于指向記錄有該提示詞的詞表的同音指針。
作為一種可選擇方案,所述提示詞對應的拼音字符串通過查詢預設的漢字-拼音對照字典獲得。
作為進一步優化方案,所述“將相匹配的拼音字符路徑末節點預設的同音指針所指向的詞表中記錄的提示詞作為糾錯提示結果”的同時,還包括:還將相匹配的拼音字符路徑末節點預設的模糊音指針所指向的詞表中記錄的提示詞作為糾錯提示結果,返回給用戶。
作為進一步優化方案,所述“在用戶輸入檢索條件”之前,還包括:預先建立提示詞拼音字典樹;所述提示詞拼音字典樹包含有提示詞庫中各個提示詞對應的拼音字符串所構成的拼音字符路徑以及各個提示詞對應的模糊音字符串所構成的拼音字符路徑;所述提示詞拼音字典樹中,在每一個提示詞對應的拼音字符串所構成的拼音字符路徑的末節點,預設有用于指向記錄有該提示詞的詞表的同音指針;在每一個提示詞對應的模糊音字符串所構成的拼音字符路徑的末節點,預設有用于指向記錄有該提示詞的詞表的模糊音指針。
作為一種可選擇方案,所述提示詞對應的模糊音字符串通過查詢預設的漢字-模糊音對照字典獲得;或者,所述提示詞對應的模糊音字符串通過查詢漢字-拼音對照字典以及拼音-模糊音對照關系表獲得。
作為進一步優化方案,所述提示詞拼音字典樹中,對于同一個提示詞,該提示詞對應的拼音字符串所構成的拼音字符路徑的末節點預設的同音指針所指向的詞表,以及該提示詞對應的模糊音字符串所構成的拼音字符路徑的末節點預設的模糊音指針所指向的詞表,為同一個詞表。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶新媒農信科技有限公司,未經重慶新媒農信科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210228101.5/2.html,轉載請聲明來源鉆瓜專利網。





