[發明專利]單元詞替換方法、搜索方法及裝置有效
| 申請號: | 201410171188.6 | 申請日: | 2014-04-25 |
| 公開(公告)號: | CN105095222B | 公開(公告)日: | 2019-10-15 |
| 發明(設計)人: | 阮淑梨;蔣建;魏洪平;謝慶偉 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F17/27 |
| 代理公司: | 北京億騰知識產權代理事務所(普通合伙) 11309 | 代理人: | 戴燕 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 單元 替換 方法 搜索 裝置 | ||
1.一種單元詞替換方法,其特征在于,所述方法包括:
對輸入的查詢語句進行分詞,得到所述查詢語句的第一單元詞;
利用所述第一單元詞,從同義詞表中找出所述第一單元詞的同義詞集合;
從二元詞組數據庫中,查詢得到所述第一單元詞與其上下文的單元詞組成的第一二元詞組的第一緊密度、所述同義詞集合中的第二單元詞與所述第一單元詞的上下文的單元詞組成的第二二元詞組的第二緊密度,其中,所述二元詞組數據庫中包括參考二元詞組及所述參考二元詞組的緊密度,對于參考二元詞組(WA,WB)的兩個單元詞WA和WB,所述參考二元詞組(WA,WB)的緊密度根據公式計算,其中,T(WA,WB)表示單元詞WA和WB之間的緊密度,P(WB|WA)表示單元詞WB依賴于單元詞WA出現的概率,C(WA,WB)表示單元詞WA和WB在語料庫的訓練文檔集合中同時出現的次數,C(WA)表示單元詞WA在所述語料庫的訓練文檔集合中出現的總次數;
比較所述第一緊密度和所述第二緊密度,如果所述第二緊密度大于等于所述第一緊密度且所述第二緊密度大于預設閾值,則將所述第二單元詞作為所述第一單元詞的替換詞。
2.根據權利要求1所述的方法,其特征在于,所述方法還包括:
將語料庫中的單元詞兩兩組成參考二元詞組,并計算所述參考二元詞組的緊密度,建立所述二元詞組數據庫。
3.根據權利要求2所述的方法,其特征在于,在所述計算所述參考二元詞組的緊密度之后,還包括:
根據所述參考二元詞組的緊密度,對所述語料庫的參考二元詞組進行分類;
所述二元詞組數據庫中包括一級詞組集合、二級詞組集合和三級詞組集合;
如果所述參考二元詞組的緊密度大于等于第一閾值,則將所述參考二元詞組分類到所述一級詞組集合;
如果所述參考二元詞組的緊密度小于第一閾值且大于等于第二閾值,則將所述參考二元詞組分類到所述二級詞組集合;
如果所述參考二元詞組的緊密度小于第二閾值,則將所述參考二元詞組分類到所述三級詞組集合。
4.根據權利要求1所述的方法,其特征在于,所述第一單元詞的上下文的單元詞包括以下至少一種:所述第一單元詞的前導詞、所述第一單元詞的后導詞;
所述第一緊密度包括所述第一單元詞與所述第一單元詞的前導詞組成的第一二元詞組的緊密度,或者,所述第一單元詞與所述第一單元詞的后導詞組成的第一二元詞組的緊密度;
所述第二緊密度包括所述同義詞集合中的單元詞與所述第一單元詞的前導詞組成的第二二元詞組的緊密度,或者,所述同義詞集合中的單元詞與所述第一單元詞的后導詞組成的第二二元詞組的緊密度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410171188.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種呈現搜索結果的方法和裝置
- 下一篇:一種篩選推廣關鍵詞的方法和裝置





