[發明專利]訓練分類模型的方法及裝置、對搜索詞分類的方法及裝置有效
| 申請號: | 201610016083.2 | 申請日: | 2016-01-08 |
| 公開(公告)號: | CN105589972B | 公開(公告)日: | 2019-03-15 |
| 發明(設計)人: | 李晨旭 | 申請(專利權)人: | 天津車之家科技有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/35;G06F16/28 |
| 代理公司: | 北京思睿峰知識產權代理有限公司 11396 | 代理人: | 謝建云;趙愛軍 |
| 地址: | 300300 天津市濱海新區空*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練 分類 模型 方法 裝置 搜索詞 | ||
1.一種訓練搜索詞分類模型的方法,適于在計算設備中執行,該計算設備包括關鍵詞存儲器,適于存儲關鍵詞分類詞典,該詞典中每個關鍵詞具有代表用戶搜索意圖的類別信息,該方法包括:
從用戶歷史搜索記錄中獲取搜索詞的集合,并獲取該集合中每個搜索詞的類別,其中每個搜索詞的類別是基于關鍵詞分類詞典得到的;
獲取每個搜索詞中類別與其相同的分詞,所獲取的每個分詞的屬性包括該分詞的分類貢獻度特征;
獲取每個搜索詞中類別與其相同的每個分詞的關聯詞,所獲取的每個關聯詞的屬性包括表示這個關聯詞與相關聯分詞語義相似度的特征;以及
利用每個搜索詞的類別、每個搜索詞中類別與其相同的分詞和每個分詞的關聯詞來訓練分類模型。
2.如權利要求1所述的方法,其中所述獲取該搜索詞的集合中每個搜索詞的類別的步驟包括:
如果這個搜索詞包括所述關鍵詞分類詞典中一個關鍵詞,則將這個關鍵詞的類別作為這個搜索詞的類別;以及
如果這個搜索詞包括所述關鍵詞分類詞典中多個關鍵詞,則將這多個關鍵詞中優先級最高的關鍵詞的類別作為該搜索詞的類別。
3.如權利要求1所述的方法,其中,所述獲取每個搜索詞中與其類別相同的分詞的步驟包括:
利用所述關鍵詞分類詞典對每個搜索詞執行分詞操作,并提取類別與這個搜索詞相同的分詞;以及
利用下述公式計算所提取的每個分詞的分類貢獻特征:
t=1/(n+x)其中,t為該分詞的分類貢獻值,n表示類別與這個搜索詞相同的分詞總數,x的取值范圍為0.01-0.5。
4.如權利要求1所述的方法,其中,所述獲取每個搜索詞中類別與其相同的每個分詞的關聯詞的步驟包括:
獲取預定網站的至少一部分網頁信息;
利用所述關鍵詞分類詞典對所獲取的網頁信息執行分詞操作,以生成分詞集合;
對該分詞集合執行詞聚類操作,以獲取所獲取的網頁信息對應的詞聚類模型;
基于該詞聚類模型,對所述每個分詞執行詞擴展操作,以獲取每個分詞的關聯詞。
5.如權利要求4所述的方法,其中,所述利用所述關鍵詞分類詞典對所獲取的網頁信息執行分詞操作,以生成分詞集合的步驟包括:
對執行分詞操作所獲取的分詞執行去重操作,并將去重后的所有分詞作為所述分詞集合。
6.如權利要求4所述的方法,其中,所述對所述分詞集合執行詞聚類操作的步驟包括:
利用word2vec對該分詞集合執行詞聚類操作。
7.如權利要求1所述的方法,其中所述表示這個關聯詞與相關聯分詞語義相似度的特征為余弦距離。
8.如權利要求1所述的方法,其中,所述分類模型為SVM模型。
9.如權利要求1所述的方法,其中,所述利用每個搜索詞的類別、每個搜索詞中類別與其相同的分詞和每個分詞的關聯詞來訓練分類模型的步驟包括:
將每個搜索詞的類別、類別與這個搜索詞相同的分詞和類別與這個搜索詞相同的每個分詞的關聯詞轉化為用向量表示的一條樣本;以及
利用所生成的每條樣本對分類模型的參數進行訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津車之家科技有限公司,未經天津車之家科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610016083.2/1.html,轉載請聲明來源鉆瓜專利網。





