[發明專利]一種網頁人群屬性的預測方法無效
| 申請號: | 201210079096.6 | 申請日: | 2012-03-22 |
| 公開(公告)號: | CN102663027A | 公開(公告)日: | 2012-09-12 |
| 發明(設計)人: | 韓冬;張蘭蘭;劉金玉;田寧;劉崟 | 申請(專利權)人: | 浙江盤石信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 杭州天正專利事務所有限公司 33201 | 代理人: | 王兵;王利強 |
| 地址: | 310011 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網頁 人群 屬性 預測 方法 | ||
技術領域
本發明涉及網頁數據處理領域,尤其是一種網頁人群屬性的預測方法。
背景技術
隨著互聯網技術的發展,網絡資源十分豐富,越來越多的互聯網用戶可以根據自己的興趣愛好或需求,瀏覽大量的網頁來獲取自己的信息。互聯網廣告作為一種精準定向的營銷方式,投放到網頁時只有知道頁面的訪問人群的信息,獲得用戶的地理位置、性別、年齡、收入、興趣愛好和短期需求等信息,才能給用戶匹配符合個性化需求的廣告。準確的頁面人群屬性分析,不僅能給用戶排除無關廣告的干擾,找到自己需要的商品信息,節約了用戶的時間;更重要的是幫助廣告投放商家找到目標客戶,達到預期的營銷效果。
近年來有很多廣告定向方面的研究,現有的方法都是將用戶進行分類,首先通過IP或Cookie獲得用戶瀏覽頁面,然后爬蟲抓取頁面內容,對獲得的文本向量做去停詞處理,接著頁面的特征詞與建立的網頁類別關鍵詞庫中的詞匹配,確定網頁類別;最后根據事先建好的網頁類別和用戶類別的匹配表進行匹配得到用戶類別,當用戶再次登錄時就按用戶的類別投放廣告,認為在這樣的人群分類下投放廣告比較精準。一方面通過IP或Cookie獲取的用戶的瀏覽的頁面只是用戶在互聯網瀏覽網頁的一部分,相對于信息龐大的互聯網來說,由這些相對稀疏的網頁分析得到用戶真正感興趣的網頁顯得有失偏頗;另一方面現存的方法也只是將用戶根據興趣等進行分類如數碼類、房產類等,沒有給出每種用戶類別的具體屬性特征,不能全面的了解用戶,達不到真正的廣告定向效果;更重要的是互聯網廣告最終是投放在頁面上,故應該尋找適合產品投放的網頁,從頁面的角度挖掘用戶信息,找到產品的目標用戶,而現存的方法都是從用戶進行分析,通過分類后的用戶找到投放的網頁,達不到定向廣告投放的預期效果。
發明內容
為了克服已有網頁廣告定向技術的投放頁面選擇不夠準確、定向投放的效果差等方面的不足,本發明提供一種有效實現定向投放、可靠性良好的網頁人群屬性的預測方法。
本發明解決此問題所采用的技術方案是:
一種網頁人群屬性的預測方法,所述的預測方法包括以下步驟:
(1)根據用戶的注冊信息或用戶ID獲取用戶的基本屬性信息,并進行預處理去掉不合理的用戶屬性信息。比如說用戶的年齡在6歲以下或90歲以上的信息,用戶的出生日期總是系統默認的數據等,并根據最新的CNNIC網民人群屬性分布,進行配比加權,取得最能代表中國網民的用戶樣本;
(2)在用戶訪問頁面時利用裝載的Cookie跟蹤用戶訪問的網頁,進行訪問頁面的收集。由于頁面的人群屬性來源于訪問頁面的用戶的屬性,而較少的訪問人群不利于頁面人群屬性的預測,故我們選擇訪問人數大于20的頁面作為分析頁面;
(3)計算詞對頁面的人群屬性傾向性的影響;
(3.1)利用人群屬性區分度DG和信息增益IG進行文本向量特征詞的選擇;
(3.2)利用公式計算詞對頁面人群屬性傾向性的影響:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江盤石信息技術有限公司,未經浙江盤石信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210079096.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:化學品和特種氣體監控及分析系統及方法
- 下一篇:功能性低損傷養生酒





