[發(fā)明專利]建立興趣模型的方法及裝置有效
| 申請?zhí)枺?/td> | 201210279366.8 | 申請日: | 2012-08-07 |
| 公開(公告)號: | CN102831199A | 公開(公告)日: | 2012-12-19 |
| 發(fā)明(設計)人: | 周浩;鄧夏瑋 | 申請(專利權)人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市浩天知識產(chǎn)權代理事務所 11276 | 代理人: | 劉云貴 |
| 地址: | 100088 北京市西城區(qū)新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 建立 興趣 模型 方法 裝置 | ||
技術領域
本發(fā)明涉及網(wǎng)絡技術領域,具體涉及一種建立興趣模型的方法及裝置。
背景技術
傳統(tǒng)的瀏覽器和搜索引擎提供了大量的信息資源,但由于沒有考慮到用戶的個人興趣愛好,不同的用戶使用瀏覽器和搜索引擎得到的信息是相同的,這種不加區(qū)分的信息資源不能滿足用戶的個性化需求。因此,基于用戶興趣的個性化推薦服務已經(jīng)成為研究與開發(fā)的熱點。
在個性化推薦服務中,有關用戶興趣模型的研究成為核心和關鍵技術。目前,用戶興趣模型的建模方法主要有:手工定制建模,即由用戶自行輸入或選擇的建模方法,該方法完全依賴于用戶,并且無法準確地反映出用戶興趣;示例建模,即由用戶提供與興趣相關的示例及類別屬性的建模方法,該方法需要用戶在瀏覽過程中標注頁面以得到示例,干擾了用戶的正常瀏覽;自動建模,即根據(jù)用戶的瀏覽內容和瀏覽行為構建用戶模型,建模過程無需用戶主動提供信息,不會對用戶造成干擾,但是目前這種方法處于起步階段,還不能完全利用瀏覽器和搜索引擎提供的大量的信息資源,無法有效地反映出用戶的興趣。
發(fā)明內容
鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的建立興趣模型的方法和相應的建立興趣模型的裝置。
依據(jù)本發(fā)明的一個方面,提供了一種建立興趣模型的方法,包括:
通過調用各用戶端設備的瀏覽器記錄的瀏覽歷史數(shù)據(jù)和/或收藏夾數(shù)據(jù),以及采集各用戶端設備使用搜索引擎時的搜索關鍵詞,獲取數(shù)據(jù)樣本;
從所述數(shù)據(jù)樣本中提取特征詞,并獲取各用戶端設備訪問所述特征詞的頻次;
根據(jù)所有用戶端設備的特征詞,得到各級興趣類別,每級興趣類別包括多個興趣分類;
對于其中一個用戶端設備,根據(jù)該用戶端設備的特征詞以及該用戶端設備訪問特征詞的頻次獲得每級興趣類別中每個興趣分類的興趣值,從而建立該用戶端設備的興趣模型。
可選地,所述獲取數(shù)據(jù)樣本包括:
調用各用戶端設備的瀏覽器記錄的瀏覽歷史數(shù)據(jù)和/或收藏夾數(shù)據(jù)獲取第一數(shù)據(jù)樣本;
通過采集各用戶端設備使用搜索引擎時的搜索關鍵詞獲取第二數(shù)據(jù)樣本;
通過調用服務器記錄的用戶日志數(shù)據(jù),獲取第三數(shù)據(jù)樣本;
由所述第一數(shù)據(jù)樣本、所述第二數(shù)據(jù)樣本、和所述第三數(shù)據(jù)樣本得到所述數(shù)據(jù)樣本。
可選地,所述數(shù)據(jù)樣本包括用戶端設備瀏覽網(wǎng)頁的統(tǒng)一資源定位符和搜索關鍵詞;
所述方法還包括:對數(shù)據(jù)庫中存儲的所有統(tǒng)一資源定位符進行特征化處理,為各統(tǒng)一資源定位符標記特征詞;
所述從數(shù)據(jù)樣本中提取特征詞包括:
將所述用戶端設備瀏覽網(wǎng)頁的統(tǒng)一資源定位符與數(shù)據(jù)庫存儲的統(tǒng)一資源定位符進行對比,得到對比一致的所述數(shù)據(jù)庫中的統(tǒng)一資源定位符的特征詞,作為所述數(shù)據(jù)樣本的特征詞;
將所述搜索關鍵詞進行分詞處理后并去掉停用詞,得到所述數(shù)據(jù)樣本的特征詞。
可選地,所述根據(jù)所有用戶端設備的特征詞,得到各級興趣類別包括:
通過分類算法,對所有用戶端設備的特征詞進行分類處理,得到k級興趣類別,所述k級興趣類別包括多個興趣分類,k≥2;
通過k-1次聚類算法,對k級興趣類別的多個興趣分類進行聚類處理,得到k-1個i級興趣類別,其中i∈[1,k-1]。
可選地,在所述建立用戶端設備的興趣模型之后還包括:通過調用用戶端設備的瀏覽器記錄的瀏覽歷史數(shù)據(jù)和/或收藏夾數(shù)據(jù)以及采集用戶端設備使用搜索引擎時的搜索關鍵字,重新獲取該用戶端設備的數(shù)據(jù)樣本;從該用戶端設備的數(shù)據(jù)樣本中提取特征詞,并獲取該用戶端設備訪問特征詞的頻次;根據(jù)該用戶端設備的特征詞以及該用戶端設備訪問特征詞的頻次,重新獲得每級興趣類別中每個興趣分類的興趣值,對用戶端設備的興趣模型進行優(yōu)化更新。
可選地,在所述建立用戶端設備的興趣模型之后還包括:將所述興趣模型中指定興趣值對應的興趣分類的內容推送給用戶端設備。
可選地,在所述根據(jù)所有用戶端設備的特征詞,得到各級興趣類別之前還包括:對所有用戶端設備的特征詞進行去重處理。
根據(jù)本發(fā)明的另一方面,提供了一種建立興趣模型的裝置,包括:
樣本獲取模塊,用于通過調用各用戶端設備的瀏覽器記錄的瀏覽歷史數(shù)據(jù)和/或收藏夾數(shù)據(jù),以及采集各用戶端設備使用搜索引擎時的搜索關鍵詞,獲取數(shù)據(jù)樣本;
特征詞提取模塊,用于從所述數(shù)據(jù)樣本中提取特征詞,并獲取各用戶端設備訪問所述特征詞的頻次;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經(jīng)北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210279366.8/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一次性馬桶墊紙及其固定裝置
- 下一篇:高層建筑太陽能熱水供應系統(tǒng)





