[發明專利]識別同義詞的方法、裝置及利用其進行搜索的方法和裝置有效
| 申請號: | 200910137633.6 | 申請日: | 2009-04-27 |
| 公開(公告)號: | CN101872351A | 公開(公告)日: | 2010-10-27 |
| 發明(設計)人: | 董靜;邢飛;郭寧;侯磊;張勤 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 馬敬;逯長明 |
| 地址: | 英屬開曼群島大開曼*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 識別 同義詞 方法 裝置 利用 進行 搜索 | ||
1.一種識別中文同義詞的方法,其特征在于,包括:
a、計算服務器獲得需要識別的任意兩個中文詞;
b、確定所述兩個中文詞之間的最小編輯距離小于等于編輯距離閾值后,執行步驟c;
c、判斷所述需要識別的兩個中文詞是否都存在于預設的知識庫中,若是,則在所述知識庫中分別查找每個中文詞的權重最大的最小粒度類型;
d、若查詢到的每個中文詞的權重最大的最小粒度類型相等,則判定所述兩個中文詞為同義詞,否則判定所述兩個中文詞為非同義詞。
2.根據權利要求1所述的方法,其特征在于,若需要識別的兩個中文詞不都存在于預設的知識庫中,則進一步包括:
e、計算服務器對不能查到的中文詞進行分詞,再判斷所述分詞后的中文詞是否都存在于所述知識庫中,若是,則再在所述知識庫中分別查找每個中文詞的權重最大的最小粒度類型,并繼續后續步驟。
3.根據權利要求1或2所述的方法,其特征在于,當判斷出每個中文詞的權重最大的最小粒度類型相等后,進一步包括:
計算服務器判斷兩個中文詞中有變化的字或詞是否屬于已設置的普義字表中可以改變的字,若是,再判定所述需要識別的兩個中文詞為同義詞,否則判定所述兩個中文詞為非同義詞。
4.根據權利要求1所述的方法,其特征在于,所述知識庫包括:詞條和概念,每個詞條或概念至少對應一個類型,且每個詞條或概念對應的每個類型具有權重值。
5.根據權利要求4所述的方法,其特征在于,所述在所述知識庫中分別查找每個中文詞的權重最大的最小粒度類型包括:
在所述知識庫中查到與每個中文詞對應的詞條或概念,根據每個詞條或概念對應的至少一個類型,及每個詞條或概念具有的權重值,查到每個中文詞的權重最大的最小粒度類型。
6.根據權利要求1所述的方法,其特征在于,若判定所述兩個中文詞為同義詞,則將所述識別出的同義詞存入同義詞庫。
7.一種利用權利要求6所述的方法進行搜索的方法,其特征在于,包括:
搜索引擎接收來自用戶的查詢請求,所述查詢請求中包括待查詢詞條;
搜索引擎根據所述待查詢詞條查詢預先設置的同義詞庫,找到該待查詢詞條的同義詞;
搜索引擎應用所述待查詢詞條和該待查詢詞條的同義詞進行搜索,返回包括該待查詢詞條和該待查詢詞條同義詞的搜索結果給用戶。
8.一種識別中文同義詞的裝置,其特征在于,包括:
獲取單元,用于獲得需要識別的任意兩個中文詞;
第一判斷單元,用于確定所述兩個中文詞之間的最小編輯距離小于等于編輯距離閾值后,通知第二判斷單元;
第二判斷單元,用于判斷所述需要識別的兩個中文詞都存在于預設的知識庫中時,通知查詢單元;
查詢單元,用于在所述知識庫中分別查找每個中文詞的權重最大的最小粒度類型;
第三判斷單元,用于確定查詢到的每個中文詞的權重最大的最小粒度類型相等時,判定所述兩個中文詞為同義詞,確定查詢到的每個中文詞的權重最大的最小粒度類型不相等時,判定所述兩個中文詞為非同義詞。
9.根據權利要求8所述的裝置,其特征在于,所述裝置還包括:
分詞單元,用于對不能在所述知識庫中查到的中文詞進行分詞,之后通知第二判斷單元;
所述第二判斷單元,還用于判斷出所述分詞后的中文詞都存在于所述知識庫中時,再通知查詢單元,判斷出所述分詞后的中文詞不都存在于所述知識庫中時,再通知分詞單元。
10.根據權利要求8或9所述的裝置,其特征在于,所述裝置還包括:
普義字表查詢單元,用于確定兩個中文詞中有變化的字或詞屬于已設置的普義字表中可以改變的字時,通知第三判斷單元判定所述兩個中文詞為同義詞,確定兩個中文詞中有變化的字或詞不屬于已設置的普義字表中可以改變的字時,通知第三判斷單元判定所述兩個中文詞為非同義詞。
11.根據權利要求8所述的裝置,其特征在于,所述知識庫包括:詞條和概念,每個詞條或概念至少對應一個類型,且每個詞條或概念對應的每個類型具有權重值。
12.根據權利要求8所述的裝置,其特征在于,所述識別中文同義詞的裝置為計算服務器或搜索引擎。
13.一種利用權利要求7所述的方法進行搜索的搜索裝置,其特征在于,包括:
接收單元,用于接收來自用戶的查詢請求,所述查詢請求中包括待查詢詞條;
同義詞查詢單元,用于根據所述待查詢詞條查詢預先設置的同義詞庫,找到該待查詢詞條的同義詞;
搜索單元,用于應用所述待查詢詞條和該待查詢詞條的同義詞進行搜索;
反饋單元,用于將所述搜索結果返回給用戶。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910137633.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種條碼采集終端
- 下一篇:一種圖像掃描的控制方法





