[發明專利]日志分類模型的建立、行為日志分類方法及裝置有效
| 申請號: | 201310331868.5 | 申請日: | 2013-08-01 |
| 公開(公告)號: | CN103455411A | 公開(公告)日: | 2013-12-18 |
| 發明(設計)人: | 黃世維;黃碩;徐倩;向偉 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F11/34 | 分類號: | G06F11/34 |
| 代理公司: | 北京鴻德海業知識產權代理事務所(普通合伙) 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 日志 分類 模型 建立 行為 方法 裝置 | ||
【技術領域】
本發明涉及數據挖掘技術,尤其涉及一種日志分類模型的建立、行為日志分類方法及裝置。
【背景技術】
隨著通信技術的發展,終端集成了越來越多的功能,從而使得終端的系統功能列表中包含了越來越多相應的應用程序,例如,電腦中安裝的應用程序,第三方智能手機中安裝的應用程序(Application,APP)等。這些應用程序每天都會產生大量的用戶的行為日志,對這些行為日志進行分析,能夠確定用戶的興趣變化、突發熱點事情、產品優缺點等重要信息?,F有技術中,在對用戶的行為日志進行分析的過程中,可以通過對檢索關鍵詞(Query)或題目(Title)等字段,進行基于主題的分類,例如,體育類、娛樂類、游戲類或醫療類等,實現對Query或Title等字段所屬的行為日志進行統計?;诮y計之后的行為日志進行分析,會使得分析結果更加準確。
然而,由于行為日志的多樣性,因此,有很多行為日志可能會缺少Query或Title等字段,使得無法對Query或Title等字段,進行基于主題的分類,這樣,則無法對行為日志進行統計,從而導致了行為日志的分析的準確性的降低。
【發明內容】
本發明的多個方面提供一種日志分類模型的建立、行為日志分類方法及裝置,用以提高行為日志的分析的準確性。
本發明的一方面,提供一種日志分類模型的建立方法,包括:
從至少一個數據源中,獲取指定用戶的行為日志;
對所述行為日志進行劃分,以獲得至少一個Session段;
根據每個所述Session段中所包括的行為日志的檢索關鍵詞、題目和URL,獲得每個所述Session段中每個行為日志的對應字段所屬的至少一個第一候選主題;
根據所述至少一個第一候選主題,利用投票方法,確定每個所述Session段所屬的第二候選主題;
將每個所述Session段所屬的第二候選主題,作為每個所述Session段中每個行為日志所屬的主題,以作為目標訓練數據;
利用所述至少一個第一候選主題和所述目標訓練數據,訓練日志分類模型,所述日志分類模型用于將待分類的行為日志映射到對應主題。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述根據每個所述Session段中所包括的行為日志的Query、Title和URL,獲得每個所述Session段中每個行為日志的對應字段所屬的至少一個第一候選主題,包括:
利用每個所述Session段中所包括的行為日志的Query作為第一輸入參數,運行Query分類模型,以獲得每個所述Session段中每個行為日志的對應字段所屬的第一候選主題;
利用每個所述Session段中所包括的行為日志的Title作為第二輸入參數,運行Title分類模型,以獲得每個所述Session段中每個行為日志的對應字段所屬的第一候選主題;以及
利用每個所述Session段中所包括的行為日志的URL作為第三輸入參數,運行URL分類模型,以獲得每個所述Session段中每個行為日志的對應字段所屬的第一候選主題。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述利用所述至少一個第一候選主題和所述目標訓練數據,訓練日志分類模型,所述日志分類模型用于將待分類的行為日志映射到對應主題,包括:
根據所述至少一個第一候選主題,生成訓練主題特征;
利用所述訓練主題特征和所述目標訓練數據,訓練所述日志分類模型。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述根據所述至少一個第一候選主題,生成訓練主題特征,包括:
根據所述至少一個第一候選主題中每個所述第一候選主題,生成至少一個第三候選主題;
根據所述至少一個第一候選主題和所述至少一個第三候選主題,生成所述訓練主題特征。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述將每個所述Session段所屬的第二候選主題,作為每個所述Session段中每個行為日志所屬的主題,以作為目標訓練數據,包括:
將每個所述Session段所屬的第二候選主題,作為每個所述Session段中每個行為日志所屬的主題,以生成候選訓練數據;
對所述候選訓練數據,進行有效性驗證;
將通過所述有效性驗證的候選訓練數據,作為所述目標訓練數據
本發明的另一方面,提供一種基于日志分類模型的行為日志分類方法,所述分類模型為采用如上所述的日志分類模型的建立方法建立;所述方法包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310331868.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種泥螺餅干及其制作方法
- 下一篇:動態展示區域空氣質量和氣象場的方法





