[發(fā)明專利]基于垂直搜索及語義標注獲取軟件安全缺陷的方法有效
| 申請?zhí)枺?/td> | 201010168804.4 | 申請日: | 2010-05-11 |
| 公開(公告)號: | CN101814098A | 公開(公告)日: | 2010-08-25 |
| 發(fā)明(設計)人: | 李曉紅;劉豐煦;杜洪偉;許光全;徐超 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 程毓英 |
| 地址: | 300072 天*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 垂直 搜索 語義 標注 獲取 軟件 安全 缺陷 方法 | ||
1.一種基于垂直搜索及語義標注獲取軟件安全缺陷的方法,包括下列步驟:
1)使用基于垂直搜索技術的搜索爬蟲從安全缺陷信息相關網(wǎng)頁里爬取一組或一組以上 的網(wǎng)頁,其中包含有足夠多的安全缺陷相關網(wǎng)頁,再將這些網(wǎng)頁分成與安全領域相關 和不相關兩類,得到兩類訓練網(wǎng)頁集:安全領域相關訓練網(wǎng)頁集和安全領域不相關訓 練網(wǎng)頁集;
2)從安全領域相關訓練網(wǎng)頁集里選擇潛在的關鍵詞,在聽取專家意見的情況下添加潛在 的關鍵詞,并根據(jù)下列的幾率比公式選取關鍵詞:
3)利用所選取的關鍵詞建立安全缺陷領域過濾訓練器;
4)使用基于垂直搜索技術的搜索爬蟲,自動從internet上的其他安全缺陷信息相關網(wǎng)頁 里下載網(wǎng)頁;
5)利用安全缺陷領域過濾訓練器,采用下列基于關鍵詞權值的網(wǎng)頁過濾方法進行網(wǎng)頁過 濾:將網(wǎng)頁分為title和body兩個部分,對這兩個部分分別給于不同的權重titleweight, bodyweight,從title和body兩個部分里分別提取各個關鍵詞,Tvalue為title部分出現(xiàn)的 某個關鍵詞的權值,Bvalue為body部分出現(xiàn)的某個關鍵詞的權值,將在兩個部分里出 現(xiàn)的各個關鍵詞按照公式網(wǎng)頁權重=titleweight*∑Tvalue+bodyweight*∑Bvalue進行 加權求和,得到網(wǎng)頁權重,若該值大于預先設定的閾值,則認為該網(wǎng)頁是與安全領域 相關的,否則,濾掉該網(wǎng)頁;
6)對過濾后的網(wǎng)頁進行語義標注;
7)解析標注并抽取安全缺陷相關的信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經(jīng)天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010168804.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





