[發明專利]一種搜索方法和裝置有效
| 申請號: | 201010287639.4 | 申請日: | 2010-09-19 |
| 公開(公告)號: | CN102402561A | 公開(公告)日: | 2012-04-04 |
| 發明(設計)人: | 王全禮;肖巍;鐘延輝 | 申請(專利權)人: | 中國移動通信集團四川有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京德琦知識產權代理有限公司 11018 | 代理人: | 王一斌;王琦 |
| 地址: | 610041 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 搜索 方法 裝置 | ||
技術領域
本發明涉及搜索技術領域,更具體地,涉及一種搜索方法和裝置。
背景技術
在現有的搜索引擎中模糊搜索是用戶輸入關鍵詞,搜索服務器采用Levenshtein距離算法來計算用戶輸入的關鍵詞與索引文件中詞的相似度。與用戶輸入的關鍵詞距離最近的索引文件中詞稱為最佳關鍵詞。由用戶輸入關鍵詞得到最佳關鍵詞,搜索服務器根據最佳關鍵詞在數據庫中搜索獲得最佳關鍵詞對應的索引文件。
Levenshtein距離算法計算從一個字符轉換到另一個字符串所需的最少插入、刪除和替換的字符個數。目前通過Levenshtein距離算法來獲取索引文件中詞與用戶輸入的關鍵詞之間的編輯距離,編輯距離越小表示索引文件中詞與用戶輸入的關鍵詞相似度越佳。Levenshtein距離算法主要應用英文字符和字符串的計算,對中文和其它語言文字支持較低。因此,應用于非英文字符的Levenshtein距離算法精確性較低。
專利申請《推薦搜索引擎關鍵詞》(申請號200580042218.2)提出通過分析用戶輸入的關鍵字和存儲的歷史關鍵字記錄來生成最佳關鍵字集合,從而提高返回結果集的精確性。但用戶未存儲歷史關鍵字則無法保證返回結果集的精確性。
綜上,現有技術中存在關鍵詞搜索精確性低的問題。
發明內容
本發明實施例提出一種搜索方法,提高了關鍵詞搜索的精確性。
本發明實施例還提出一種搜索裝置,提高了關鍵詞搜索的精確性。
本發明實施例的技術方案如下:
一種搜索方法,該方法包括:
預處理用戶輸入的關鍵詞,得到待搜索關鍵詞;
將待搜索關鍵詞對應的數字向量進行標準化處理得到待搜索關鍵詞對應的特征向量;
依據所述特征向量采用協同神經網絡模式識別得到序參量,由序參量在數據庫中獲取最佳關鍵詞。
所述預處理包括,對所述用戶輸入的關鍵詞進行切詞處理。
當所述用戶輸入的關鍵詞長度超過預先設置的閾值長度,所述預處理進一步包括,修改所述用戶輸入的關鍵詞;然后,對修改后的關鍵詞進行切詞處理。
所述標準化處理包括,查詢國標碼庫將所述待搜索關鍵詞轉換為數字向量;對所述數字向量進行對齊處理后,再進行零均值處理和歸一化處理得到所述特征向量。
所述依據所述特征向量采用協同神經網絡模式識別得到序參量包括依據所述特征向量采用協同神經網絡模式識別與原型向量數據庫中的原型向量匹配,得到所述序參量。
所述依據所述特征向量采用協同神經網絡模式得到序參量包括,根據所述特征向量的維數將原型向量數據庫的原型向量的維數分為多個子類,依據所述特征向量采用協同神經模式識別與每個子類中的原型向量匹配,得到所述序參量。
所述根據所述特征向量的維數將原型向量數據庫的原型向量的維數分為多個子類包括,所述原型向量的維數與所述特征向量的維數的比值向上取整為所述子類的數目。
當所述序參量等于1,所述由序參量在數據庫中獲取最佳關鍵詞包括,由所述序參量直接在數據庫中獲取所述最佳關鍵詞。
當所述序參量小于1,所述由序參量在數據庫中獲取最佳關鍵詞包括,由大于預先設置閾值的所述序參量在數據庫中獲取所述最佳關鍵詞。
一種搜索裝置,包括預處理模塊、標準化模塊和模式識別模塊,
預處理模塊,用于預處理用戶輸入的關鍵詞,得到待搜索關鍵詞;
標準化模塊,用于標準化處理待搜索關鍵詞得到待搜索關鍵詞對應的特征向量;
模式識別模塊,用于依據所述特征向量采用協同神經網絡模式識別得到序參量,由序參量在數據庫中獲取最佳關鍵詞。
所述預處理模塊包括切詞單元,
切詞單元,用于對用戶輸入的關鍵詞進行切詞處理。
所述預處理模塊進一步包括修改單元,
修改單元,用于當所述用戶輸入的關鍵詞長度超過預先設置的閾值長度,修改所述用戶輸入的關鍵詞;
所述切詞單元,進一步用于對所述修改單元輸出的用戶輸入的關鍵詞進行切詞處理。
所述標準化模塊包括查詢單元、對齊單元和處理單元,
查詢單元,用于查詢國標碼庫將所述待搜索關鍵詞轉換為所述數字向量;
對齊單元,用于對齊處理所述數字向量;
處理單元,用于對所述對齊處理后的數字向量向后進行零均值處理和歸一化處理得到所述特征向量。
所述模式識別模塊包括模式識別單元和搜索單元,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國移動通信集團四川有限公司,未經中國移動通信集團四川有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010287639.4/2.html,轉載請聲明來源鉆瓜專利網。





