[發(fā)明專利]網(wǎng)絡(luò)信息的處理方法和抽象語法樹的建立方法及其裝置有效
| 申請?zhí)枺?/td> | 201210172822.9 | 申請日: | 2012-05-29 |
| 公開(公告)號: | CN103455476B | 公開(公告)日: | 2016-11-23 |
| 發(fā)明(設(shè)計)人: | 豐莎;陳國成;劉撫狄;蔣萌;王男 | 申請(專利權(quán))人: | 阿里巴巴集團(tuán)控股有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q30/00 |
| 代理公司: | 北京康信知識產(chǎn)權(quán)代理有限責(zé)任公司 11240 | 代理人: | 吳貴明;江舟 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 開曼群島;KY |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 網(wǎng)絡(luò) 信息 處理 方法 抽象 語法 建立 及其 裝置 | ||
技術(shù)領(lǐng)域
本申請涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別地涉及一種網(wǎng)絡(luò)信息的處理方法和裝置、以及抽象語法樹的建立方法和裝置。
背景技術(shù)
電子商務(wù)網(wǎng)站作為一個商品交易平臺(也可以稱為:電子交易平臺),每天有許多的賣家發(fā)布商品。一些信譽不好的賣家出于自身利益會利用這一平臺違規(guī)發(fā)布一些商品。例如,欺騙消費者的廣告商品、夸大宣傳效果的商品、騙取網(wǎng)站搜索流量的商品、商品分類擺放不正確的商品等。為此,電子商務(wù)網(wǎng)站的管理人員一方面需要能夠及時地阻止這些違規(guī)商品的發(fā)布,這要求從違規(guī)商品被發(fā)布到被檢測的時間應(yīng)當(dāng)盡可能地短;另一方面需要對已經(jīng)發(fā)布到網(wǎng)站的所有商品進(jìn)行掃描,從中檢測出違規(guī)商品,以便進(jìn)行相應(yīng)的處理。
目前對于電子商務(wù)網(wǎng)站收到的商品信息的檢測,主要有“規(guī)則引擎+搜索引擎”的方式和基于數(shù)據(jù)庫的信息檢索方式,以下分別介紹這兩種方式。
規(guī)則引擎是基于規(guī)則的專家系統(tǒng)的一部分,其核心是推理機,通過模式匹配器,推導(dǎo)事實與規(guī)則的匹配程度,當(dāng)事實與規(guī)則匹配時,將規(guī)則裝入規(guī)則優(yōu)先級表中;之后,從規(guī)則優(yōu)先級表中進(jìn)行規(guī)則匹配,在匹配到的所有規(guī)則中選取優(yōu)先級最高的規(guī)則(或者采用其他規(guī)則選擇算法來選擇規(guī)則),并執(zhí)行相應(yīng)的運作。典型的規(guī)則引擎包括Drools等,并有一些基于Drools的用于排查違規(guī)商品的業(yè)務(wù)系統(tǒng)。規(guī)則引擎適合于以流過濾的方式匹配目標(biāo)數(shù)據(jù),當(dāng)遇到海量商品時,可以采用正向掃描的方式,逐一處理目標(biāo)商品。
規(guī)則引擎可用于實時排查違規(guī)商品,搜索引擎可用于全量排查違規(guī)商品。但這種“規(guī)則引擎+搜索引擎”的方式存在如下缺點:
由于規(guī)則引擎和搜索引擎兩者相對獨立,因此兩者的匹配規(guī)則之間無法兼容。針對同一個業(yè)務(wù)需求,需要分別設(shè)置兩者各自的商品管理規(guī)則,導(dǎo)致維護(hù)、開發(fā)成本較高。
此外,現(xiàn)有的規(guī)則引擎語法過于復(fù)雜,其維護(hù)、編寫規(guī)則的成本非常高;同時在語法增強方面的能力欠缺。由于正則表達(dá)式類型的匹配能力對于排查違規(guī)商品至關(guān)重要,而搜索引擎在面對需要支持正則表達(dá)式類型的匹配時,其實現(xiàn)成本高,性能差。
以下舉一個分別用規(guī)則引擎和搜索引擎進(jìn)行處理的例子。
例如,對于商品管理規(guī)則:禁止出現(xiàn)在標(biāo)題中標(biāo)注了包郵,而實際上商品價格中標(biāo)注的郵費卻不是0元的行為。
對于上述規(guī)則,還可以有一條補充規(guī)則,例如:標(biāo)題中含有“江浙滬包郵”、“滿100包郵”等在“包郵”之前添加限定詞的商品,則不認(rèn)為是違規(guī)商品。
根據(jù)上述限定的規(guī)則,“包郵五星皇冠手機”是違規(guī)的商品標(biāo)題,而“江浙滬包郵五星皇冠手機”是非違規(guī)的商品標(biāo)題。
對于上述規(guī)則的處理,需要用到正則表達(dá)式,在現(xiàn)有技術(shù)中,規(guī)則引擎能夠支持正則表達(dá)式,采用規(guī)則引擎處理時的核心偽代碼可以是:
import?java.util.*;
rulebaoyouRule
no-loop?false
salience?1
when
a:Auction(postage_price!=0,title?matches“.+[]+|[]+包郵.*”,)
then
setCheckStaus(false);
a.setError(“您的商品違反了淘寶的商品管理規(guī)則,校驗不通過”);
End
以下對正則表達(dá)式(“.+[]+|[]+包郵.*”)做出解釋。
正則表達(dá)式是一種常用的文本匹配的技術(shù)。首先按照規(guī)則,定義一個模式(字符串);之后可以根據(jù)該模式,匹配目標(biāo)字符串是否符合該模式定義的特征。不同的編程語言,其規(guī)則有些許差異,但大致原理相似。
IFDL中的正則表達(dá)式規(guī)則,與JAVA語言類似。
上述的模式“.+[]+|[]+包郵.*”,其各個字符的意義如下:(“[]”中含有一個空格)
“.”:表示可以匹配任意一個字符;
“+”,“?”,“*”,這三個字符均用于定義數(shù)量,“+”表示出現(xiàn)在其之前的字符,數(shù)量為1個或1個以上;“?”表示0個或者1個;“*”表示任意個;
“[]”:用中括號括起的一組字符,用于圈定字符范圍;
“|”:表示or的關(guān)系;
因此根據(jù)上述的模式,可以匹配的目標(biāo)字符串的特征是:
目標(biāo)字符串含有“包郵”二字;
在“包郵”后面,緊跟著任意個字符(.*);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴集團(tuán)控股有限公司,未經(jīng)阿里巴巴集團(tuán)控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210172822.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





