[發明專利]一種提高向量距離分類質量的方法在審
| 申請號: | 201210476178.4 | 申請日: | 2012-11-21 |
| 公開(公告)號: | CN103838737A | 公開(公告)日: | 2014-06-04 |
| 發明(設計)人: | 李聰慧;王秀坤 | 申請(專利權)人: | 大連靈動科技發展有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 大連東方專利代理有限責任公司 21212 | 代理人: | 曲永祚 |
| 地址: | 116023 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 提高 向量 距離 分類 質量 方法 | ||
技術領域
本發明涉及一種提高自動分類質量的技術,特別是一種提高向量距離分類質量的方法。
背景技術
文檔自動分類的關鍵問題是如何構造一個分類函數或分類模型(也稱為分類器),并利用此分類模型將未知文檔映射到給定的類別空間。分類器的構造算法有多種,主要有概率統計算法、機器學習算法、神經網絡算法等。概率統計算法采用相對簡單的機制。在處理大規模真實文檔方面取得了令人滿意的效果。
其中簡單向量距離算法的思路十分簡單,其根據算術平均,通過樣本訓練為每類文檔集生成一個代表該類的中心向量;然后在新文檔來到時,確定新文檔向量,計算該向量與每類中心向量間的距離(相似度);最后判定文檔屬于與文檔距離最近的類。貝葉斯分類算法的基本思路是計算文檔屬于類別的概率。文檔屬于類別的概率等于文檔中每個詞屬于類別的幾率的綜合表達式。K-最近鄰接分類算法的基本思路是在給定新文本后,考慮在訓練文本集中與該新文本距離最近(最相似)的K篇文檔,根據這K篇文檔所屬的類別判定新文檔所屬的類別。向量距離分類是假設經過訓練后的用戶目標類文檔向量為U,待分類文檔的向量V,兩者的相似程度可用向量之間的夾角來度量,通常的方法是用兩個向量間夾角的余弦表示。兩者夾角越小,其余弦值愈大,說明相似度越大,兩個文檔分屬相同類的可能性增加。
除此以外,支持向量機和神經網絡算法再文檔分類系統中應用的也較為廣泛,支持向量機是一個用于解決模式識別問題的機器學習方法,它是基于結構風險最小化原理的,其基本思想是使用簡單的線形分類器劃分樣本空間。對于在當前特征空間中線形不可分的模式,則使用一個核函數把樣本映射到一個高維空間中,使得樣本能夠線形可分。
而神經網絡算法采用感知算法進行分類。在這種模型中,分類知識被隱式地存儲在連接的權值上,使用迭代算法來確定權值向量。當網絡輸出判斷正確時,權值向量保持不變,否則進行增加或降低的調整,因此也稱為獎懲法。
當前這些算法雖然已經在某些領域或某些特定場合取得了良好的分類效果,但是其分類質量以及分類技術仍有待進一步的提高。
發明內容
為解決現有技術存在的上述問題,本發明將會通過對這些算法進行詳細的學習研究和總結,在向量距離分類算法的基礎上對特征項,特征權值,訓練語料庫,專業詞典等進行了部分修正和完善,從而設計一種提高向量距離分類質量的方法。
為了實現上述目的,本發明的技術方案如下:一種提高向量距離分類質量的方法,包括以下步驟:
A、基于VSM的特征加權
A1、基于詞義的特征項詞頻加權
本發明建立了三個詞典:專業主詞典、專業同義詞詞典和專業蘊含詞詞典,用于進行詞條切分與詞頻統計,其中專業主詞典的詞條要求在含義上盡可能保持相互獨立。
在進行詞頻統計、特征提取、以及向量生成時,我們用主詞典中的詞條為表示特征詞條進行處理,其中詞頻統計上的公式為:
Tf=TMf+∑TTfi+e∑TIfi????(1)
式中Tf為專業主詞典詞條的詞頻統計總數;TMf為專業主詞典詞條的詞頻數;∑TTfi為專業同義詞詞條的詞頻數;e∑TIfi為專業蘊含詞詞條的詞頻數;e為擴展系數,其取值根據分類精度確定,取值區間為[0,1]。該公式表示詞條在文檔中出現頻數是由主詞條、同義詞詞條、蘊含詞詞條三部分的詞頻數累計得到。
A2、基于文檔結構的特征項詞頻加權
本發明對于同一個特征詞條由于在文章正文、標題(網頁源碼中〈TITLE〉和〈/TITLE〉標記的文字)、頁面關鍵字(網頁源碼〈META?NAME=“KEYWORD”CONTENT=“.....”〉中CONTENT中標記的文字)、頁面描述(網頁源碼〈METANAME=“DESCRIPTION”CONTENT=“.....”〉中CONTENT中標記的文字)等不同位置出現的重要程度不同我們對其詞頻時分別進行了加權計算。相應的加權公式為:
TNf=TNfM+m×TNfT+n×TNfK+p×TNfD????(2)
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連靈動科技發展有限公司,未經大連靈動科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210476178.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種具有內錐的復合式單牙輪鉆頭
- 下一篇:電動式勵磁器





