[發(fā)明專利]一種網(wǎng)絡(luò)未知應(yīng)用的關(guān)鍵詞提取方法無效
| 申請?zhí)枺?/td> | 200810220185.1 | 申請日: | 2008-12-19 |
| 公開(公告)號: | CN101488861A | 公開(公告)日: | 2009-07-22 |
| 發(fā)明(設(shè)計(jì))人: | 余順爭 | 申請(專利權(quán))人: | 中山大學(xué) |
| 主分類號: | H04L9/36 | 分類號: | H04L9/36;H04L29/06 |
| 代理公司: | 廣州粵高專利代理有限公司 | 代理人: | 禹小明 |
| 地址: | 510275廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 網(wǎng)絡(luò) 未知 應(yīng)用 關(guān)鍵詞 提取 方法 | ||
1、一種網(wǎng)絡(luò)未知應(yīng)用的關(guān)鍵詞提取方法,其特征在于通過采集未知應(yīng)用在會話過程中傳輸?shù)膱?bào)文,獲得會話樣本,并由大量的會話樣本構(gòu)成樣本集;對樣本集中構(gòu)成關(guān)鍵詞的字符或字符串進(jìn)行標(biāo)注,再計(jì)算標(biāo)注好的字符或字符串在樣本集中的通用度和支持度,即該字符或字符串的廣泛適用性和出現(xiàn)的頻繁程度,從而確定關(guān)鍵詞集合。
2、根據(jù)權(quán)利要求1所述的一種網(wǎng)絡(luò)未知應(yīng)用的關(guān)鍵詞提取方法,其特征在于所述的樣本集構(gòu)成方法,通過網(wǎng)絡(luò)采集同一種未知應(yīng)用的會話樣本,組成樣本集,其中每一個(gè)樣本都是這種應(yīng)用的一個(gè)會話記錄;每個(gè)會話記錄都包含至少2個(gè)報(bào)文,每個(gè)報(bào)文都只保留應(yīng)用層數(shù)據(jù)。
3、根據(jù)權(quán)利要求2所述的網(wǎng)絡(luò)未知應(yīng)用的關(guān)鍵詞提取方法,其特征在于把樣本集中的會話樣本進(jìn)一步分為樣本子集,每個(gè)樣本子集所包含的會話樣本具有共同點(diǎn)。
4、根據(jù)權(quán)利要求1或2或3所述的網(wǎng)絡(luò)未知應(yīng)用的關(guān)鍵詞提取方法,其特征在于對樣本集中的字符進(jìn)行標(biāo)注的方法,它通過把樣本集中的字符位置標(biāo)注為字符的下標(biāo),使得具有相同下標(biāo)的字符具有相同的屬性,即當(dāng)且僅當(dāng)A=B且i=j(luò)時(shí),帶下標(biāo)的字符Ai=Bj,具體標(biāo)注方法如下:
設(shè)字符C在一個(gè)會話樣本中的位置為:由前向后數(shù)處于第i個(gè)報(bào)文的第k個(gè)字符位置,由后向前數(shù)處于倒數(shù)第j個(gè)報(bào)文的倒數(shù)第l個(gè)字符位置,則給字符C分別添加下標(biāo)使之成為:C0,Cj,Ci,Cl,Ck,C(j,l),C(j,k),C(i,l),C(i,k);由此把樣本集分別映射為樣本集0,樣本集1,...,樣本集8,即樣本集i,for?i=0,1,...,8。
5、根據(jù)權(quán)利要求4所述的網(wǎng)絡(luò)未知應(yīng)用的關(guān)鍵詞提取方法,其特征在于所述的關(guān)鍵詞定義為應(yīng)用層協(xié)議在協(xié)議過程和報(bào)文格式所需要的字符串,包括關(guān)鍵詞、或類型碼、或狀態(tài)碼、或定界符;
提取關(guān)鍵詞依據(jù)支持度和通用度,所述通用度為在樣本集中包含給定字符或字符串的樣本子集的個(gè)數(shù),所述支持度為在給定通用度條件下,在樣本集中包含給定字符或字符串的會話的個(gè)數(shù)。
6、根據(jù)權(quán)利要求5所述的網(wǎng)絡(luò)未知應(yīng)用的關(guān)鍵詞提取方法,其特征在于確定關(guān)鍵詞集的方法具體為:對于每個(gè)樣本集i,for?i=0,1,...,8,當(dāng)樣本集中樣本子集的個(gè)數(shù)為N時(shí),求通用度至少n=N且支持度至少m>N的步驟如下:
1)求1-string頻繁項(xiàng)集:計(jì)算每一個(gè)帶下標(biāo)字符在樣本集i中的通用度和支持度;當(dāng)它的通用度大于等于n且支持度大于等于m時(shí),把它列入1-string頻繁項(xiàng)集;
2)再由k-string頻繁項(xiàng)集求(k+1)-string頻繁項(xiàng)集(k≥1):對于k-string頻繁項(xiàng)集中的任意兩項(xiàng)A和B,如果A的后(k-1)-string與B的前(k-1)-string相同,則把A和B合成一個(gè)待選的(k+1)-string,然后計(jì)算該(k+1)-string在樣本集i中的通用度和支持度;當(dāng)它的通用度大于等于n且支持度大于等于m時(shí),把它列入(k+1)-string頻繁項(xiàng)集;如此進(jìn)行,直到?jīng)]有更長頻繁項(xiàng)為止;
3)把所求得的所有頻繁項(xiàng)集合成一個(gè)關(guān)鍵詞集i。
7、根據(jù)權(quán)利要求6所述的一種網(wǎng)絡(luò)應(yīng)用的關(guān)鍵詞提取方法,其特征在于還包括篩選關(guān)鍵詞,具體篩選方法如下:
令關(guān)鍵詞集i具有級別i,for?i=0,1,...,8;級別0最低,級別8最高;把關(guān)鍵詞集i,for?i=0,1,...,8合成一個(gè)關(guān)鍵詞集;然后,刪除關(guān)鍵詞集中屬于其它項(xiàng)的子字符串的項(xiàng),即如果A是B的子字符串,當(dāng)A與B同級別或者比B的級別低時(shí),刪除A;否則刪除B。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中山大學(xué),未經(jīng)中山大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810220185.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置
- 一種未知應(yīng)用層協(xié)議自動分析方法
- 打開未知文件的方法和裝置
- 未知節(jié)點(diǎn)利用多跳節(jié)點(diǎn)縮小其可能位置區(qū)域的定位方法
- 一種利用多跳未知節(jié)點(diǎn)鄰居來提高定位精度的定位方法
- 未知文件的打開方法及裝置
- 未知號碼分級方法、未知號碼標(biāo)記方法及裝置
- 一種針對現(xiàn)有導(dǎo)航地圖中未知的道路進(jìn)行識別和導(dǎo)航的方法
- 一種未知組播報(bào)文的處理方法和裝置
- 一種農(nóng)藥殘留的檢測方法、系統(tǒng)、電子裝置及存儲介質(zhì)
- 未知病毒感染追溯方法、裝置及系統(tǒng)
- 在線應(yīng)用平臺上應(yīng)用間通信的回調(diào)應(yīng)答方法、應(yīng)用及在線應(yīng)用平臺
- 應(yīng)用使用方法、應(yīng)用使用裝置及相應(yīng)的應(yīng)用終端
- 應(yīng)用管理設(shè)備、應(yīng)用管理系統(tǒng)、以及應(yīng)用管理方法
- 能力應(yīng)用系統(tǒng)及其能力應(yīng)用方法
- 應(yīng)用市場的應(yīng)用搜索方法、系統(tǒng)及應(yīng)用市場
- 使用應(yīng)用的方法和應(yīng)用平臺
- 應(yīng)用安裝方法和應(yīng)用安裝系統(tǒng)
- 使用遠(yuǎn)程應(yīng)用進(jìn)行應(yīng)用安裝
- 應(yīng)用檢測方法及應(yīng)用檢測裝置
- 應(yīng)用調(diào)用方法、應(yīng)用發(fā)布方法及應(yīng)用發(fā)布系統(tǒng)
- 關(guān)鍵詞輸出設(shè)備和關(guān)鍵詞輸出方法
- 用于選擇用于網(wǎng)絡(luò)發(fā)布的關(guān)鍵詞的方法和設(shè)備
- 關(guān)鍵詞質(zhì)量度的檢測方法和裝置
- 關(guān)鍵詞排名的檢測方法和裝置
- 關(guān)鍵詞相似度獲取方法、裝置及服務(wù)器
- 關(guān)鍵詞推薦方法及裝置
- 一種關(guān)鍵詞檢索管理系統(tǒng)
- 一種信息推薦方法、電子設(shè)備、存儲介質(zhì)及系統(tǒng)
- 關(guān)鍵詞廣告投放自動化否定關(guān)鍵詞方法及裝置
- 一種長尾關(guān)鍵詞識別方法、關(guān)鍵詞搜索方法及計(jì)算機(jī)設(shè)備





