[發明專利]一種數據庫檢索系統中確定檢索詞的方法及裝置有效
| 申請號: | 201310312139.5 | 申請日: | 2013-07-24 |
| 公開(公告)號: | CN103336850A | 公開(公告)日: | 2013-10-02 |
| 發明(設計)人: | 張利波;劉明;彭金輝;劉秉國;劉晨輝;楊彪;許磊 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據庫 檢索系統 確定 檢索 方法 裝置 | ||
技術領域
本發明涉及一種數據庫檢索系統中確定檢索詞的方法及裝置,屬于數據庫檢索技術領域。
背景技術
在傳統的關系型數據庫中,往往采用SQL語句來檢索數據庫,對于中文字段的記錄,檢索數據庫時,用戶輸入的中文檢索詞有時會存在拼寫輸入錯誤的情況,如檢索礦物名稱“鈦鐵礦”,如果用全拼輸入法,可能會將檢索詞輸入成“太鐵礦”,就存在拼寫糾錯的問題,除了拼寫錯誤外,還有可能存在其它的一些輸入不完整或誤輸入的情況。SQL語句自身沒有對檢索詞修正的功能,僅提供了精確和模糊(Like)兩種檢索方式。因此需要在系統中提供修正檢索詞的功能,對檢索詞進行修正,或者說是對檢索詞進行容錯處理,否則將可能檢索不到任何信息而使得用戶滿意度下降。目前多數搜索引擎都提供了拼寫糾錯的功能,如在百度上搜索“太鐵礦”,搜索引擎系統就會提示“您要找的是不是:鈦鐵礦”。針對搜索引擎,通常采用概率字符串匹配算法,往往需要大量的概率統計的計算,導致處理過于復雜,而消耗較多的資源,不適合應用于專業領域數據庫的檢索系統中,也有根據編輯距離來糾正檢索詞中錯誤的方法,但這種方法不太適合中文檢索詞的修正。目前,在專業領域數據庫檢索系統中,對于中文檢索詞,多數情況采用拼音輸入法,同音字輸入錯誤是比較普遍的現象。
對檢索詞的修正,還需要考慮用戶的一些使用習慣,這樣有助于檢索詞的修正或容錯。由于簡拼碼比較快捷,用戶在進行檢索時,也比較喜歡使用簡拼碼,目前多數搜索引擎都提供了對簡拼碼的支持,一般采用在下拉列表中列出與簡拼碼相關的檢索頻率較高的幾個中文檢索詞提供給用戶選擇,然后再根據選擇的中文檢索詞進行搜索的方法,而如果直接用簡拼碼搜索時,返回的檢索結果往往很達到用戶的預期。在專業領域的數據庫系統中,一般采用專業術語來檢索數據庫,其檢索詞的范圍遠遠小于互聯網搜索引擎的要處理的海量數據,如果支持簡拼碼直接檢索數據庫,將為用戶的使用提供極大的方便。另外,在專業領域中,還有研究者習慣采用英文進行檢索,如果能夠支持中英文混合檢索,將更加方便用戶的使用。
如果要滿足用戶的這些需求,在業務記錄表中增加英文字段、簡拼碼字段以及全拼碼字段等,這樣必然導致過多的數據冗余,將帶來很多負面影響:首先,數據記錄的維護變得復雜;在檢索數據庫時,將這些字段組合成表達式,將可能導致查詢表達式變得十分復雜而非常不利于數據庫系統的優化并且無法進行容錯處理;同時,為提高檢索速度,需要對這些字段建立索引,這樣也將使數據庫系統維護索引過多而帶來較大的開銷。另外,現有技術對檢索詞修正處理和數據庫的檢索往往是分離的,要么強調檢索詞的修正或容錯處理,而不考慮應用背景和實際需求,使得容錯處理的分析、計算過于復雜而導致實用性較差;要么強調檢索速度而忽略對檢索詞的修正處理,使得檢索系統的用戶體驗較差,也就是說現有技術對用戶多樣化的需求、檢索速度與容錯處理等方面缺乏綜合平衡的考慮。
發明內容
本發明要解決的技術問題是針對現有技術的上述缺陷,提供了一種數據庫檢索系統中確定檢索詞的方法。
本發明的技術方案是:一種數據庫檢索系統中確定檢索詞的方法,包括如下步驟:?
S11、建立詞匯表,所述詞匯表至少包括中文名、英文名、全拼碼、簡拼碼;
S12、獲得用戶輸入的檢索詞后,對所述檢索詞進行預處理,包括:判斷檢索詞是否為中文檢索詞和清除檢索詞中的非法字符,若為中文檢索詞,執行步驟S13,若不為中文檢索詞,則執行步驟S14;
S13、檢索數據庫,如果返回結果集不為空,則結束檢索,如果返回結果集為空,則執行步驟S14;
S14、生成所述檢索詞的全拼碼、簡拼碼、英文名及中文名等,遍歷詞匯表并計算所述檢索詞的全拼碼、簡拼碼、英文名及中文名等與詞匯表中對應項的匹配度;
S15、根據匹配度及設定的閾值確定新的檢索詞,并利用所述新確定的檢索詞重新檢索數據庫。
優選的,所述檢索詞分為三類,包括:中文檢索詞、英文檢索詞和混合檢索詞,其中,中文檢索詞中僅包括中文字符,英文檢索詞中僅包括英文字符,其余為混合檢索詞;中文檢索詞的中文名為檢索詞自身,英文名為空字符串;英文檢索詞的英文名為檢索詞自身,中文名為空字符串;混合檢索詞的中文名、英文名為檢索詞自身。
優選的,檢索詞的中文名、英文名、全拼碼、簡拼碼等的匹配度,是根據檢索詞該項中的字符與詞匯表中對應項字符的匹配個數與它們中的最長的字符串長度的比值來度量的,其匹配度CD定義為:
CD=???????????????????????????????????????????????
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310312139.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:刃具數量清單裝置
- 下一篇:具有隱形功能的飛行器





