[發明專利]建立詞項需求分類模型的方法、詞項需求分類方法及裝置有效
| 申請號: | 201110379123.7 | 申請日: | 2011-11-24 |
| 公開(公告)號: | CN103136220A | 公開(公告)日: | 2013-06-05 |
| 發明(設計)人: | 黃際洲;鐘華;柴春光 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京鴻德海業知識產權代理事務所(普通合伙) 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 建立 需求 分類 模型 方法 裝置 | ||
【技術領域】
本發明涉及計算機技術領域,特別涉及一種建立詞項需求分類模型的方法、詞項需求分類方法及對應裝置。
【背景技術】
隨著互聯網在全球范圍內的迅速發展與成熟,網絡上的信息資源不斷豐富,信息數據量也在飛速膨脹,通過搜索引擎獲取信息已經成為現代人獲取信息的主要方式。為了向用戶提供更加便捷、準確地查詢服務是搜索引擎技術在當今和未來的發展方向。
在搜索引擎技術中,對用戶的搜索需求進行識別是提高搜索準確性和有效性的重要一環,特別在結構化搜索(即垂直搜索)中作用顯著。在識別用戶的搜索需求時,通常會利用到搜索請求(query)中各詞項(term)的需求類型,根據query中各term的需求類型進一步確定query的搜索需求。因此,對term進行的需求分類會對搜索準確性和有效性帶來直接影響。
現有對term進行需求分類的方法主要是:人工收集一些需求詞,將待分類term在搜索引擎中進行搜索后,根據搜索結果中包含的需求詞數量確定term的需求類型。例如,人工收集視頻類的需求詞為:“高清”、“在線觀看”等,如果某個term的搜索結果前10條搜索結果中包含這兩個詞的結果數最多,則確定該term具有視頻類需求。
但這種對term進行需求分類的方法具有以下缺陷:
1)需求詞需要人工收集,召回率較低,并不能適用于所有term的分類。
2)人工收集的需求詞并不一定準確,且容易存在歧義,例如一個需求詞有可能在多個需求類別中都具有,則在對term進行需求分類時,準確率較低。
【發明內容】
有鑒于此,本發明提供了一種建立詞項需求分類模型的方法、詞項需求分類方法及裝置,以便于提高term需求分類的召回率和準確率。
具體技術方案如下:
一種建立詞項term需求分類模型的方法,該方法包括:
S1、針對各需求類型分別執行步驟S11至步驟S13,得到模板分類模型:
S11、獲取當前需求類型的種子term的搜索結果;
S12、將所述搜索結果的標題title、網頁地址url和摘要snippet中的至少一種泛化為模板;
S13、基于各模板在當前需求類型的出現頻率值計算各模板在當前需求類型中的權值;
S2、針對每一個種子term,利用種子term對應的模板在各需求類型中的權值,確定種子term在各需求類型上的得分,從而得到包含種子term以及種子term在各需求類型上的得分的term需求分類模型。
根據本發明一優選實施例,所述種子term是人工針對各需求類型進行配置的,或者人工在網頁資源中標注的,或者從各需求類型的術語平臺獲取的。
根據本發明一優選實施例,在所述步驟S11中還包括:確定種子term與對應搜索結果之間的相關度,將不滿足預設相關度要求的搜索結果過濾掉;或者,
僅保留搜索結果中排在N1個的搜索結果以供執行所述步驟S12,所述N1為預設的正整數。
根據本發明一優選實施例,在所述步驟S12中,對搜索結果的title或snippet的泛化包括:
將搜索結果的title或snippet中與對應種子term重疊的內容采用通配符替代;或者,
將搜索結果的title或snippet與當前需求類型的實體詞典進行匹配,將title或snippet中匹配上的詞語替換為對應實體的類別;或者,
將搜索結果的title或snippet與當前需求類型的實體識別函數進行匹配,將title或snippet中匹配上的詞語替換為實體識別函數的識別結果。
根據本發明一優選實施例,在所述步驟S12中,對搜索結果的url的泛化具體包括:
將url的域名抽取出來作為模板;或者,執行以下步驟A1至A4,
A1、判斷搜索結果的url中是否存在“#”,如果是,執行步驟A2;否則直接執行步驟A3;
A2、去掉所述“#”以及“#”之后的字符串,繼續執行步驟A3;
A3、如果當前url以“.html”或者“.htm”結尾,則去掉最后一個“/”之后的字符串;如果當前url以“/”結尾,則去掉倒數第二個“/”之后的字符串;如果當前url最后一個“/”之后的字符串中存在“?”,則去掉所述“?”以及所述“?”之后的字符串;其他情況則去掉最后一個“/”之后的字符串;
A4、將當前url中預設類型的字符串泛化成對應的類型標記。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110379123.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:-120℃自分凝制冷系統
- 下一篇:壓縮機系統





