[發明專利]一種網頁文本的無阻滯層次分類方法與裝置有效
| 申請號: | 201010605831.3 | 申請日: | 2010-12-24 |
| 公開(公告)號: | CN102004796A | 公開(公告)日: | 2011-04-06 |
| 發明(設計)人: | 錢鋼;王艷軍;沈玲玲;王海;錢鐵 | 申請(專利權)人: | 錢鋼 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京天翼專利代理有限責任公司 32112 | 代理人: | 湯志武 |
| 地址: | 210097 江蘇省南京市鼓*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網頁 文本 阻滯 層次 分類 方法 裝置 | ||
1.一種網頁文本的無阻滯層次分類方法,其特征在于,所述方法包括:
基于訓練文本TF向量的均值和方差以及rough集屬性約簡的特征抽取方法;
確定每個分類器的辨識框架和焦元,利用特征的權重構造基本可信度分配函數(BPA);
根據基本可信度分配函數和待分類網頁文本的特征權重合成待分類網頁文本在類別樹的每個節點的信度分配;
利用信度分配根據分類規則對待分類網頁文本進行分類。
2.如權利要求1的方法,其特征在于,所述基于訓練文本TF向量的均值和方差以及rough集屬性約簡的特征抽取方法包括:
利用類中各子類的訓練文本的詞的TF值的期望、類內方差以及類間方差從詞典中抽取指定數量的詞作為候選特征詞;
利用rough集的屬性約簡理論,通過判斷候選特征詞作為條件屬性時對決策屬性的重要度來決定改候選特征詞是否作為當前分類器的特征。
3.如權利要求2所述的方法,其特征在于,所述利用類中各子類的訓練文本的詞的TF值的期望、類內方差以及類間方差從詞典中抽取指定數量的詞作為候選特征詞包括如下步驟:
步驟301:將類c的所有訓練文本TF向量構成的矩陣分塊為若干子矩陣,其中每個子矩陣由類c的一個子類ci的所有訓練文本TF向量構成的矩陣;
步驟302:計算類c的子類ci(i∈{1,2,…,nc},其中nc為類c的子類的個數)的矩陣的列期望和列方差(特征TF類內方差),得到的行向量分別記為Ei和步驟303:將所有的Ei組成一個矩陣E,即將所有的組成一個矩陣D(I),即計算E的列方差(特征TF類間方差),得到的行向量記為D1;
步驟304:對于矩陣E的各列的最大值,選擇D(I)中對應位置的元素,組成的行向量記為D2;
步驟305:去掉類間方差幾乎為零(≤1e-8)的詞;選取類內方差幾乎為零(≤1e-8)的詞作為候選特征詞;選擇D1-D2中較大元素對應的詞作為特征詞,按大小排在方差幾乎為零的候選特征詞之后;共選擇t1個候選特征詞,其集合記為
所述利用rough集的屬性約簡理論,通過判斷候選特征詞作為條件屬性時對決策屬性的重要度來決定改候選特征詞是否作為當前分類器的特征包含如下步驟:
步驟306:設特征集合為R,賦初值R=φ;取T中的元素T1:t=T1;
步驟307:如果δR∪{t}(c)>δR(c),則轉入步驟308;否則,轉入步驟309;其中,δR(c)表示條件屬性R對決策屬性c的重要性;
步驟308:R=R∪{t},取T中的下一個元素賦給t,轉入步驟307;
步驟309:輸出特征集合R以及特征數tc。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于錢鋼,未經錢鋼許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010605831.3/1.html,轉載請聲明來源鉆瓜專利網。





