[發明專利]識別互聯網用戶性別方法和系統在審
| 申請號: | 201610134810.5 | 申請日: | 2016-03-09 |
| 公開(公告)號: | CN107180044A | 公開(公告)日: | 2017-09-19 |
| 發明(設計)人: | 李倚;吳贇哲 | 申請(專利權)人: | 精碩科技(北京)股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京睿邦知識產權代理事務所(普通合伙)11481 | 代理人: | 余玥君 |
| 地址: | 100144 北京市石景山*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 識別 互聯網 用戶 性別 方法 系統 | ||
技術領域
本發明屬于計算機領域,涉及一種識別互聯網用戶性別的方法。本發明還涉及一種識別互聯網用戶性別的系統。
背景技術
傳統上分類問題可以由專家系統來實現。由領域專家來選擇與分類目標強相關的特征,如身高、體重,又有互聯網上行為,諸如訪問汽車類網站、女性化妝品類網站的行為,亦或者是習慣上網的時間、查看網頁的正文內容等等。再由領域專家確定每一個特征的表征值或計分值,結合本案可以是:身高高于178cm計1分、身高低于160cm計-1分、訪問汽車類網站計1分、訪問女性類網站計-1分等等諸如此類。最后統計一下待預測用戶的若干項特征的得分,大于0的就預測成男性、小于0的就預測成女性。
我們可以發現專家系統的形式可以多種多樣,但是其本質是基于經驗的系統。由專家提供的領域知識占有決定性的地位。但現實生活中,每一種特征對于樣本用來說并非一定合理和奏效,如對于女排運動員來說身高與性別的強相關性并不是那么顯然的,甚至是錯誤的。又比如紀念日前男生訪問女性化妝品網站為選購禮物也是普遍的現象。這樣一來專家定制的規則將越來越復雜,條件也將越來越難以評判,這樣一來成本無法控制、更重要的是規則的制定將永遠落后于時效,從而導致專家系統效果不理想、耗時費力、依賴領域專家知識。
發明內容
為了解除對專家知識的依賴,發明人潛心開發一種能自動化選取與待預測目標相關聯的特征維度、自動訓練模型得到次樣本空間上的最優模型、便于自動化預測的識別互聯網用戶性別的方法。
根據本發明的第一方面,本發明提供一種識別互聯網用戶性別的方法,包括:
提取多個調研樣本的性別數據及網絡行為數據;
根據所述調研樣本的性別數據及所述網絡行為數據構建性別-行為模型;
接收待分析用戶的網絡行為數據;
將所述待分析用戶的網絡行為數據帶入所述性別-行為模型計算待分析用戶的性別概率。
所述網絡行為數據包括曝光廣告的種類、媒體、訪問的網頁url、文本信息中的至少一種。
優選地,在提取調研樣本的性別數據及網絡行為數據之后,對所獲得的數據進行清洗,去除錯誤信息。
可選地,在清除錯誤信息之后,對網絡行為數據提取特征并數值化。
可選地,在清除錯誤信息之后,對網絡行為數據提取特征,并根據特征覆蓋率、卡方統計量、信息增益-信息熵中的至少一種排除不理想的特征。
優選地,所述性別-行為模型為廣義線性模型。
更優選地,所述性別-行為模型為
其中
X為用戶特征向量,記錄了數值化后的用戶互聯網訪問行為;
μ為性別概率;
β為最優的參數估計值。
根據本發明的第二方面,本發明提供一種識別互聯網用戶性別的系統,包括
樣本準備單元,提取多個調研樣本的性別數據及網絡行為數據;
建模單元,根據所述調研樣本的性別數據及所述網絡行為數據構建性別-行為模型;
待測數據接收單元,接收待識別用戶的網絡行為數據;和
性別識別單元,將所述待識別用戶的網絡行為數據代入所述性別-行為模型計算得到待識別用戶的性別概率。
優選地,所述性別-行為模型為
在本發明的一些實施方式中,所述建模單元包括
特征抽取模塊,將提取到的網絡行為數據轉化為特征集合,并數值化;
特征清洗模塊,將與待預測目標相關性低、覆蓋率小、和/或作用相似的特征排除掉;和
參數估計模塊,利用統計學方法得到最優的參數估計值β。
優選地,可以通過極大似然估計、擬極大似然估計或貝葉斯定理來估計最優的參數估計值β。
更優選地,通過極大似然估計來得到最優的參數估計值β
根據本發明第三方面,本發明提供一種識別互聯網用戶性別的方法,包括:
接收待識別用戶的網絡行為數據;
對待識別用戶的網絡行為數據進行特征提取;
將提取出的特征帶入模型庫中的模型進行計算;和
輸出計算結果。
優選地,所述提取出的特征經過數值化轉化為用戶特征向量X。
優選地,所述模型為
其中
X為用戶特征向量,記錄了數值化后的用戶互聯網訪問行為;
μ為性別概率;
β為最優的參數估計值。
在本發明的一些實施方式中,所述β值會根據用戶特征向量的選取而變化。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于精碩科技(北京)股份有限公司,未經精碩科技(北京)股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610134810.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:分頁實現方法和分頁系統
- 下一篇:一種互聯網文本蘊含地理實體關系的抽取方法





