[發明專利]基于網頁文本語義特征的在線零售額計算方法在審
| 申請號: | 201310575302.7 | 申請日: | 2013-11-15 |
| 公開(公告)號: | CN103605724A | 公開(公告)日: | 2014-02-26 |
| 發明(設計)人: | 柴躍廷;孫驍 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q30/00 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 張大威 |
| 地址: | 100084 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 網頁 文本 語義 特征 在線 零售額 計算方法 | ||
技術領域
本發明涉及互聯網大數據技術領域,具體涉及一種基于網頁文本語義特征的在線零售額計算方法。
背景技術
互聯網全時空可接入、虛擬化、開放化的特點,使得電子商務作為一種新興的商業模式迅速發展。為了進行科學有效的管理,通常需要統計某段時間內的在線零售總額。現有技術中計算在線零售額的計算方法大致可分為三類,略述如下。
1.結算中心法
這種方法需要目標市場設置一個或多個結算中心,以便將每一筆交易記錄在案。因為結算中心記錄了每一次交易清單,所以通過這種方法得到的交易額是最準確的,同時也是實時的。股票市場中的情形正是如此。在面向消費者的在線零售的市場中,任何一個企業都有自己的結算中心,即訂單處理系統,但是企業出于種種考慮,并不總能如實地披露自己的交易額,多有夸大成分。
2.間接統計法
這種方法的思想是利用輔助信息,間接估算交易額。輔助信息一般來自于交易流程中起重要作用的步驟,例如大多數訂單的履行都離不開物流,那么如果想要知道一段時期內某一企業的交易額,可以通過獲取該段時間內企業的物流包裹量,再乘以客單價,即可大致計算出企業的交易額。同樣地道理,也可以統計該段時間內各大銀行、第三方支付平臺、郵局匯款等金融機構流入企業的資金量。這種方法的弊端是信息源的不準確甚至不可獲取,不論是獲取物流還是資金流,都不是一件容易的事情。因此這種方法只能給出交易額的參考值。
3.抽樣統計法
這種方法基于普查理論,先將目標市場劃分為不同群體,再在不同群體內部進行抽樣,取得一定數量的樣本,對每一個樣本做調查,最后將結果匯總,推算出總體的指標數值。這種方法的理論基礎堅實,是目前應用最廣泛的交易額統計方法。美國普查局主導的對電子商務市場交易規模的年度調查曾多次采用這種方法,將全部企業按制造業、批發業、零售業、服務業等群體分層抽樣,各群體內部再做進一步的劃分,例如批發業又被劃分為電子類、藥類、工業零件類等。由數理統計理論保證,如果抽樣過程滿足一定的條件,那么這種方法的結果是可以讓人信服的。但是,樣本數據來源于接收問卷的企業自己上報,很難保證其客觀性。同時,這種方法要求實施方掌握了目標市場的結構數據,兼有強大的實施力和大量的人力物力。因此,這種方法只適用于政府主導的年度市場調查,單個組織機構很難實施,此外,它只能給出市場層面的數據,而缺乏對企業層面的精細考察,統計結果也會有一定程度的滯后。
以上三種方法從本質上說,都延續了傳統市場的思路,沒有充分利用電子商務這種在線交易方式的特點。
發明內容
本發明旨在至少解決現有技術中存在的技術問題之一。
為此,本發明的目的在于提出一種基于網頁文本語義特征的在線零售額計算方法。
為了實現上述目的,根據本發明實施例的基于網頁文本語義特征的在線零售額計算方法,包括:對網民總體進行分層抽樣得到樣本;實時監測樣本成員的上網行為,基于網頁語義特征發現所述樣本成員的網絡購物下達的訂單,并基于網頁語義特征從所述訂單中抓取訂單金額;對樣本網絡購物信息進行實時匯總及統計,得到所述在線零售額,其中,所述樣本網絡購物信息包括所述訂單以及所述訂單金額。
根據本發明實施例的基于網頁文本語義特征的在線零售額計算方法,與現有技術相比,優點在于:訂單信息是實時抓取并分析的,因此統計結果是實時的;當樣本成員在其常用計算機上安裝完客戶端軟件之后,信息的收集和匯總完全由計算機和互聯網技術自動完成,因此統計過程是便捷的;樣本成員訂單金額的監測由客戶端內部算法完成,算法經過理論推導和實際測試證明是有效的、精確的,統計流程剔除了人為因素的干擾,因此數據來源是客觀的,數據是準確的。
另外,根據本發明實施例的基于網頁文本語義特征的在線零售額計算方法還可以具有如下附加技術特征:
在本發明的一個實施例中,所述基于網頁語義特征發現所述樣本成員網絡購物下達的訂單具體包括以下步驟:獲得當前網頁源代碼;過濾出網頁源代碼內的中文;檢測網頁中文文本內是否含有網頁文本特征,得到網頁特征向量;根據網頁特征向量計算網頁特征數值;若所述網頁特征數值大于網頁特征數值閾值,則所述網頁是訂單頁面,否則是非訂單頁面。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310575302.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種高效的海水煙氣脫硫脫硝方法
- 下一篇:科研信息演化的分析方法和裝置





