[發明專利]一種挖掘同義屬性詞的方法和裝置有效
| 申請號: | 201110358740.9 | 申請日: | 2011-11-11 |
| 公開(公告)號: | CN103106189A | 公開(公告)日: | 2013-05-15 |
| 發明(設計)人: | 陳慶軒;李皛皛 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京鴻德海業知識產權代理事務所(普通合伙) 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 挖掘 同義 屬性 方法 裝置 | ||
1.一種挖掘同義屬性詞的方法,其特征在于,該方法包括:
S1、獲取query集合;
S2、基于已有的實體詞詞典和屬性詞詞典對query集合中的各query進行結構化解析,抽取出標準query,未抽取出標準query的query作為非標準query,所述標準query由實體詞和屬性詞的組合構成;
S3、針對每一個標準query分別執行步驟S31至步驟S32:
S31、計算各非標準query與當前標準query的點擊相似度,確定點擊相似度滿足預設相似度要求且與當前標準query具有相同實體詞的非標準query;
S32、將所述步驟S31確定的非標準query中去除與當前標準query相同的實體詞后,對剩余的詞語進行過濾處理得到候選同義屬性詞;
S33、基于候選同義屬性詞與當前標準query中屬性詞的共現頻度占比、點擊相似度以及字面相似度中的至少一種,對各候選同義屬性詞進行打分,獲取打分值滿足預設分值要求的候選同義屬性詞作為當前標注query中屬性詞的同義屬性詞。
2.根據權利要求1所述的方法,其特征在于,該方法還包括:確定所述query集合中各query的點擊向量,所述query的點擊向量由query對應的被點擊url以及各被點擊url的點擊權重構成;
所述步驟S31中計算非標準query與當前標準query的點擊相似度為:計算非標準query的點擊向量與當前標準query的點擊向量的余弦相似度。
3.根據權利要求2所述的方法,其特征在于,queryi的點擊向量中urlj的點擊權重wij為:
其中,clickij為對應于queryi時urlj的被點擊次數,n為queryi對應的被點擊url的總數目。
4.根據權利要求2或3所述的方法,其特征在于,所述步驟S2之前還包括:對所述query集合進行剪枝處理得到有效query,其中所述剪枝處理采用以下剪枝策略中的至少一種:
剪枝策略1:過濾掉搜索次數低于預設搜索次數閾值的query;
剪枝策略2:過濾掉對應url的點擊總次數低于預設點擊次數閾值的query;以及,
剪枝策略3:將各query的點擊向量中,點擊權重低于預設權重閾值的url及對應點擊權重過濾掉;
在所述步驟S2中對各有效query進行結構化解析,抽取出標準query,未抽取出標準query的有效query作為非標準query。
5.根據權利要求1所述的方法,其特征在于,在所述步驟S2中對query進行結構化解析具體為:
判斷query中是否同時具有實體詞詞典中的實體詞以及屬性詞詞典中的屬性詞,如果是,則抽取出該query中具有實體詞和屬性詞構成標準query;否則該query為非標準query。
6.根據權利要求1所述的方法,其特征在于,所述步驟S32中的過濾處理包括以下過濾處理中的至少一種:
過濾掉停用詞;
過濾掉帶有數字類信息的詞語;以及,
過濾掉表意求取資源的詞語。
7.根據權利要求1所述的方法,其特征在于,所述步驟S33中,候選同義屬性詞與當前標準query中屬性詞的共現頻度占比為co_tf與ttf的比值;
其中所述co_tf為候選同義屬性詞與當前標準query中屬性詞在大規模語料中的共現次數,所述ttf為各候選同義屬性詞與當前標準query中屬性詞在大規模語料中的共現次數之和。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110358740.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:刺激人體的保健裝置
- 下一篇:一種新型精神科外用藥袋





