[發明專利]建立詞項需求分類模型的方法、詞項需求分類方法及裝置有效
| 申請號: | 201110379123.7 | 申請日: | 2011-11-24 |
| 公開(公告)號: | CN103136220A | 公開(公告)日: | 2013-06-05 |
| 發明(設計)人: | 黃際洲;鐘華;柴春光 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京鴻德海業知識產權代理事務所(普通合伙) 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 建立 需求 分類 模型 方法 裝置 | ||
1.一種建立詞項term需求分類模型的方法,其特征在于,該方法包括:
S1、針對各需求類型分別執行步驟S11至步驟S13,得到模板分類模型:
S11、獲取當前需求類型的種子term的搜索結果;
S12、將所述搜索結果的標題title、網頁地址url和摘要snippet中的至少一種泛化為模板;
S13、基于各模板在當前需求類型的出現頻率值計算各模板在當前需求類型中的權值;
S2、針對每一個種子term,利用種子term對應的模板在各需求類型中的權值,確定種子term在各需求類型上的得分,從而得到包含種子term以及種子term在各需求類型上的得分的term需求分類模型。
2.根據權利要求1所述的方法,其特征在于,所述種子term是人工針對各需求類型進行配置的,或者人工在網頁資源中標注的,或者從各需求類型的術語平臺獲取的。
3.根據權利要求1所述的方法,其特征在于,在所述步驟S11中還包括:確定種子term與對應搜索結果之間的相關度,將不滿足預設相關度要求的搜索結果過濾掉;或者,
僅保留搜索結果中排在N1個的搜索結果以供執行所述步驟S12,所述N1為預設的正整數。
4.根據權利要求1所述的方法,其特征在于,在所述步驟S12中,對搜索結果的title或snippet的泛化包括:
將搜索結果的title或snippet中與對應種子term重疊的內容采用通配符替代;或者,
將搜索結果的title或snippet與當前需求類型的實體詞典進行匹配,將title或snippet中匹配上的詞語替換為對應實體的類別;或者,
將搜索結果的title或snippet與當前需求類型的實體識別函數進行匹配,將title或snippet中匹配上的詞語替換為實體識別函數的識別結果。
5.根據權利要求1所述的方法,其特征在于,在所述步驟S12中,對搜索結果的url的泛化具體包括:
將url的域名抽取出來作為模板;或者,執行以下步驟A1至A4,
A1、判斷搜索結果的url中是否存在“#”,如果是,執行步驟A2;否則直接執行步驟A3;
A2、去掉所述“#”以及“#”之后的字符串,繼續執行步驟A3;
A3、如果當前url以“.html”或者“.htm”結尾,則去掉最后一個“/”之后的字符串;如果當前url以“/”結尾,則去掉倒數第二個“/”之后的字符串;如果當前url最后一個“/”之后的字符串中存在“?”,則去掉所述“?”以及所述“?”之后的字符串;其他情況則去掉最后一個“/”之后的字符串;
A4、將當前url中預設類型的字符串泛化成對應的類型標記。
6.根據權利要求1所述的方法,其特征在于,在所述步驟S13中,按照公式或者計算模板P在當前需求類型中的權值SP;
其中,TFP為模板P在當前需求類型的出現頻率,T為當前需求類型中種子term的數量,ITFP為模板P的逆向模板頻率ITF值。
7.根據權利要求6所述的方法,其特征在于,所述TFP按照如下公式計算:
FP為模板P所來自的搜索結果i構成的集合,Ri為模板P所來自的搜索結果i的排序值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110379123.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:-120℃自分凝制冷系統
- 下一篇:壓縮機系統





