[發(fā)明專利]一種提高向量距離分類質(zhì)量的方法在審
| 申請?zhí)枺?/td> | 201210476178.4 | 申請日: | 2012-11-21 |
| 公開(公告)號: | CN103838737A | 公開(公告)日: | 2014-06-04 |
| 發(fā)明(設計)人: | 李聰慧;王秀坤 | 申請(專利權(quán))人: | 大連靈動科技發(fā)展有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 大連東方專利代理有限責任公司 21212 | 代理人: | 曲永祚 |
| 地址: | 116023 遼寧*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 提高 向量 距離 分類 質(zhì)量 方法 | ||
1.一種提高向量距離分類質(zhì)量的方法,其特征在于:包括以下步驟:
A、基于VSM的特征加權(quán)
A1、基于詞義的特征項詞頻加權(quán)
本發(fā)明建立了三個詞典:專業(yè)主詞典、專業(yè)同義詞詞典和專業(yè)蘊含詞詞典,用于進行詞條切分與詞頻統(tǒng)計,其中專業(yè)主詞典的詞條要求在含義上盡可能保持相互獨立;
在進行詞頻統(tǒng)計、特征提取、以及向量生成時,我們用主詞典中的詞條為表示特征詞條進行處理,其中詞頻統(tǒng)計上的公式為:
Tf=TMf+∑TTfi+e∑TIfi????(1)
式中Tf為專業(yè)主詞典詞條的詞頻統(tǒng)計總數(shù);TMf為專業(yè)主詞典詞條的詞頻數(shù);∑TTfi為專業(yè)同義詞詞條的詞頻數(shù);e∑TIfi為專業(yè)蘊含詞詞條的詞頻數(shù);e為擴展系數(shù),其取值根據(jù)分類精度確定,取值區(qū)間為[0,1];該公式表示詞條在文檔中出現(xiàn)頻數(shù)是由主詞條、同義詞詞條、蘊含詞詞條三部分的詞頻數(shù)累計得到;
A2、基于文檔結(jié)構(gòu)的特征項詞頻加權(quán)
本發(fā)明對于同一個特征詞條由于在文章正文、標題,網(wǎng)頁源碼中〈TITLE〉和〈/TITLE〉標記的文字、頁面關(guān)鍵字,網(wǎng)頁源碼〈META?NAME=“KEYWORD”CONTENT=“.....”〉中CONTENT中標記的文字、頁面描述,網(wǎng)頁源碼〈METANAME=“DESCRIPTION”CONTENT=“.....”〉中CONTENT中標記的文字等不同位置出現(xiàn)的重要程度不同我們對其詞頻時分別進行了加權(quán)計算;相應的加權(quán)公式為:
TNf=TNfM+m×TNfT+n×TNfK+p×TNfD????(2)
其中TNf為某詞條的詞頻數(shù),可以是公式(1)中的TMf、TTfi或TIfi;而TNfM,TNfT,TNfK,TNfD分別為對正文,標題,頁面關(guān)鍵字和頁面描述部分進行字典關(guān)鍵詞統(tǒng)計的詞頻數(shù);m、n、p則分別為相應的加權(quán)系數(shù);
B、提取英文搜索的詞干
本發(fā)明中采用Stemming技術(shù)對一些英文單詞在具體使用時表現(xiàn)的現(xiàn)在時、過去時等多種形式,如“walk”,“walked”,“walker”,“walking”;以及某些單詞的名詞、形容詞、副詞等多種形式,具有相同詞干的詞進行詞干化處理,具體來講,對于這些詞的詞干提取本發(fā)明采用的一種方法是先建立單詞前綴、后綴表和特殊形式表,然后用匹配方式實現(xiàn);另一種方法是模仿前面介紹的同義詞處理方式,將詞干詞放入專業(yè)主詞典中,將其它時態(tài)和詞性的同詞干詞做為同義詞來處理,其詞頻統(tǒng)計公式可參考同義詞詞頻統(tǒng)計方法;
C、分析用戶查詢?nèi)罩?/p>
本發(fā)明按類別記錄下用戶每次查詢輸入的關(guān)鍵詞,并且對查詢結(jié)果在一定閾值以內(nèi)的查詢關(guān)鍵詞進行專門記錄,在一定時間內(nèi)我們通過自動地統(tǒng)計日志為人工修正專業(yè)詞典提供依據(jù);這樣就構(gòu)成了一個針對專業(yè)詞典的自適應閉環(huán)系統(tǒng);
D、訓練語料庫修正、擴充
本發(fā)明是將Robot采集到且滿足分類閾值要求的網(wǎng)頁按類別添加到訓練語料庫中,同時將一定時間閾值外的訓練語料網(wǎng)頁進行刪除;這樣就又構(gòu)成了一個針對訓練語料庫的自適應閉環(huán)系統(tǒng)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于大連靈動科技發(fā)展有限公司,未經(jīng)大連靈動科技發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210476178.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種具有內(nèi)錐的復合式單牙輪鉆頭
- 下一篇:電動式勵磁器





