[發(fā)明專利]基于網(wǎng)頁文本語義特征的在線零售額計算方法在審
| 申請?zhí)枺?/td> | 201310575302.7 | 申請日: | 2013-11-15 |
| 公開(公告)號: | CN103605724A | 公開(公告)日: | 2014-02-26 |
| 發(fā)明(設(shè)計)人: | 柴躍廷;孫驍 | 申請(專利權(quán))人: | 清華大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q30/00 |
| 代理公司: | 北京清亦華知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201 | 代理人: | 張大威 |
| 地址: | 100084 北京*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 網(wǎng)頁 文本 語義 特征 在線 零售額 計算方法 | ||
1.一種基于網(wǎng)頁文本語義特征的在線零售額計算方法,其特征在于,包括如下步驟:對網(wǎng)民總體進行分層抽樣得到樣本;
實時監(jiān)測樣本成員的上網(wǎng)行為,基于網(wǎng)頁語義特征發(fā)現(xiàn)所述樣本成員的網(wǎng)絡(luò)購物下達的訂單,并基于網(wǎng)頁語義特征從所述訂單中抓取訂單金額;
對樣本網(wǎng)絡(luò)購物信息進行實時匯總及統(tǒng)計,得到所述在線零售額,其中,所述樣本網(wǎng)絡(luò)購物信息包括所述訂單以及所述訂單金額。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于網(wǎng)頁語義特征發(fā)現(xiàn)所述樣本成員網(wǎng)絡(luò)購物下達的訂單具體包括以下步驟:
獲得當(dāng)前網(wǎng)頁源代碼;
過濾出網(wǎng)頁源代碼內(nèi)的中文;
檢測網(wǎng)頁中文文本內(nèi)是否含有網(wǎng)頁文本特征,得到網(wǎng)頁特征向量;
根據(jù)網(wǎng)頁特征向量計算網(wǎng)頁特征數(shù)值;
若所述網(wǎng)頁特征數(shù)值大于網(wǎng)頁特征數(shù)值閾值,則所述網(wǎng)頁是訂單頁面,否則是非訂單頁面。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,根據(jù)網(wǎng)頁特征向量計算網(wǎng)頁特征數(shù)值的計算公式為:
其中,n是提取所述網(wǎng)頁文本特征的個數(shù),xi是所述網(wǎng)頁特征向量X的第i個分量,θi是第一參數(shù)向量θ的第i個分量,p1是所述網(wǎng)頁特征數(shù)值,其中所述第一參數(shù)向量θ為已知的。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述第一參數(shù)向量θ是采用邏輯斯蒂回歸得到的。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從所述訂單中抓取訂單金額具體包括以下步驟:
獲得訂單頁面網(wǎng)頁源代碼;
過濾出符合預(yù)定結(jié)構(gòu)的所有字段;
依次檢測每一個字段是否含有字段文本特征,得到字段特征向量;
對各個字段根據(jù)字段特征向量計算字段特征數(shù)值,選取所有字段中所述字段特征數(shù)值最大者,若該字段的所述字段特征數(shù)值大于字段特征閾值,則該字段被確定為訂單金額所在字段;
從所述訂單金額所在字段提取出數(shù)字,作為最終的所述訂單金額。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué),未經(jīng)清華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310575302.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種高效的海水煙氣脫硫脫硝方法
- 下一篇:科研信息演化的分析方法和裝置





