[發明專利]一種違規在線商品檢測方法有效
| 申請號: | 201210078995.4 | 申請日: | 2012-03-22 |
| 公開(公告)號: | CN102663025A | 公開(公告)日: | 2012-09-12 |
| 發明(設計)人: | 張蘭蘭;田寧;譚磊;劉崟 | 申請(專利權)人: | 浙江盤石信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q30/00 |
| 代理公司: | 杭州天正專利事務所有限公司 33201 | 代理人: | 王兵;王利強 |
| 地址: | 310011 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 違規 在線 商品 檢測 方法 | ||
1.一種違規在線商品檢測方法,其特征在于:所述檢測方法包括以下步驟:
(1)通過網絡爬蟲對待檢測在線商品所在頁面的信息進行爬取:
(11)對頁面內容及頁面URL進行分析,計算頁面與商品信息主題的相關度并設定閥值,過濾掉與主題相關度小于閥值的頁面,保留主題密切的鏈接放入隊列,根據優先級從隊列選取鏈接爬取,直到存放頁面URL的隊列為空為止;
(12)對網絡爬蟲抓取的HTML網頁,利用HTMLCleaner解析其結構層次關系,獲取頁面的DOM樹結構,并刪除形式標簽,分析頁面的結構;
(2)通過分析待檢測在線商品所在的電子商務網站的DOM樹結構,查找網頁中與商品相關的信息在DOM樹中的位置,并通過分析商品信息在DOM樹中的位置,找到包含網頁中多個結構相似的信息塊的最小深度的節點作為臨界節點,形成相關聯信息點進行抽取的規則:
(a)臨界節點只可能是塊類型節點的子集,不可能是其他類型節點;
(b)臨界節點的孩子節點中必然同時包括文本類節點、圖片類型節點及樣式類型節點;
(c)臨界節點的兄弟節點必然大于等于2,且兄弟節點和當前邊界節點有相同的節點名稱及相似的屬性;
根據抽取的規則建立模板,從爬蟲獲取的網頁信息中提取商品屬性信息數據;
(3)建立語義字典:首先對產品標記和產品屬性采用人工方法進行語義提取,形成語義字典的靜態部分;其次對電子商務產品涉及的概念,結合產品分類體系進行人工語義提取與構建;最后在人工構造初級字典的基礎上,對語義字典進行擴充;
對提取的商品屬性信息進行分詞采用基于字符匹配的方法,在匹配詞和分字典過程中采用二分查找,若檢索詞在字典中,返回表示結果的對象,此對象為詞,則返回查找結果并儲存,若不是一個詞,則查找返回以所查詢詞開頭位置最靠前的詞;若不在字典中,檢查以給定字符串開頭的其他詞返回;
(5)采用人工建立違規語義庫,通過函數IllegalList將違規語義庫中的詞匯,和經過分詞的商品屬性信息相關內容詞語字段進行判斷,根據函數返回的結果,判定違規在線商品的違規類別。
2.如權利要求1所述的一種違規在線商品檢測方法,其特征在于:所述步驟(11)中,計算網頁與商品信息主題相關度公式:
其中,ti表示頁面特征向量,tj表示主題中心向量,ωik表示詞i在頁面k中的權重。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江盤石信息技術有限公司,未經浙江盤石信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210078995.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種微課程在線設計系統
- 下一篇:信息記錄方法及裝置





