[發(fā)明專利]一種使用優(yōu)化的向量空間模型實(shí)現(xiàn)文檔自動(dòng)分類的方法在審
| 申請?zhí)枺?/td> | 201510707947.0 | 申請日: | 2015-10-28 |
| 公開(公告)號: | CN105354184A | 公開(公告)日: | 2016-02-24 |
| 發(fā)明(設(shè)計(jì))人: | 鄧劍波;趙京升;劉曉雄;馬潤宇;倪顯見 | 申請(專利權(quán))人: | 甘肅智呈網(wǎng)絡(luò)科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 蘭州中科華西專利代理有限公司 62002 | 代理人: | 李艷華 |
| 地址: | 730000 甘肅省蘭州*** | 國省代碼: | 甘肅;62 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 使用 優(yōu)化 向量 空間 模型 實(shí)現(xiàn) 文檔 自動(dòng) 分類 方法 | ||
1.一種使用優(yōu)化的向量空間模型實(shí)現(xiàn)文檔自動(dòng)分類的方法,包括以下步驟:
⑴對已知文章進(jìn)行預(yù)處理:
①去除無意義字符:先將已知文章中的標(biāo)點(diǎn)和換行符替換為自定義的符號,再去除空白字符;
②判斷標(biāo)題:當(dāng)兩個(gè)換行符之間字符數(shù)量不多,且后一個(gè)換行符之前緊鄰的字符不是標(biāo)點(diǎn),則可判斷兩換行符之間的內(nèi)容為標(biāo)題和子標(biāo)題;
⑵對已知文章進(jìn)行詞頻優(yōu)化處理:
對于中文使用現(xiàn)有的分詞模塊對已知文章進(jìn)行分詞,掃描全文,統(tǒng)計(jì)全文詞頻、綜合詞性信息,使用關(guān)鍵詞生成模塊選出名詞性的高頻詞,得到關(guān)鍵詞;
采用詞頻詞典并運(yùn)用詞頻優(yōu)化模塊中的權(quán)重因子對所述關(guān)鍵詞的權(quán)重進(jìn)行優(yōu)化,即:降低高頻無意義詞和低頻無意義較長詞的權(quán)重,增加低頻有意義詞的權(quán)重;
其中:權(quán)重因子是指,式中表示詞頻詞典中最大的頻率數(shù);n表示詞的字節(jié)數(shù);表示詞的詞頻;
⑶對已知文章關(guān)鍵詞進(jìn)行關(guān)聯(lián)度優(yōu)化:
將所述關(guān)鍵詞的關(guān)聯(lián)度從關(guān)鍵詞關(guān)聯(lián)庫中讀取,并設(shè)定關(guān)鍵詞B相對于關(guān)鍵詞A的關(guān)聯(lián)度為h21,關(guān)鍵詞A相對于關(guān)鍵詞B的關(guān)聯(lián)度為h12,即若一個(gè)句子中包含關(guān)鍵詞A和關(guān)鍵詞B,且其原來的權(quán)重分別為r1和r2,則計(jì)入B相對于A的關(guān)鍵詞關(guān)聯(lián)度后A的權(quán)重將從r1變到r1+r2×h21,計(jì)入A相對于B的關(guān)鍵詞關(guān)聯(lián)度后B的權(quán)重將從r2變?yōu)閞2+r1×h12;
⑷獲得已知文章的主軸:
根據(jù)所述步驟⑵和所述步驟⑶所得的優(yōu)化后的關(guān)鍵詞及其權(quán)重得到已知文章的主軸;
⑸獲得類的主軸:
手動(dòng)整理出多個(gè)類的訓(xùn)練文檔,對每一篇訓(xùn)練文章按照所述步驟⑴~⑷獲得訓(xùn)練文檔的內(nèi)容主軸,然后按向量的加法將其整理成多個(gè)類的主軸;
⑹對未知文章分類:
ⅰ計(jì)算未知文章的主軸與所述多個(gè)類的主軸之間的相似度:
設(shè)定關(guān)鍵詞1對應(yīng)k1,關(guān)鍵詞2對應(yīng)k2,關(guān)鍵詞3對應(yīng)k3,…,關(guān)鍵詞n對應(yīng)kn;
未知文章的主軸對應(yīng)A*,所述多個(gè)類的主軸對應(yīng)T;
關(guān)鍵詞1在未知文章中的權(quán)重為a1,關(guān)鍵詞2在未知文章中的權(quán)重為a2,……,關(guān)鍵詞n在未知文章中的權(quán)重為an;
關(guān)鍵詞1在所述多個(gè)類中的權(quán)重為b1,關(guān)鍵詞2在所述多個(gè)類中的權(quán)重為b2,……,關(guān)鍵詞n在所述多個(gè)類中的權(quán)重為bn;
則令
A*=(a1×k1,a2×k2,a3×k3,……,an×kn);
T=(b1×k1,b2×k2,b3×k3,……,bn×kn);
定義為A*和T的相似度;
ⅱ分類:
當(dāng)未知文章的主軸與所述多個(gè)類的主軸的相似度大于設(shè)定的閾值0.15~0.20時(shí),則判定該未知文章屬于該多個(gè)類中的某個(gè)類或某幾個(gè)類。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于甘肅智呈網(wǎng)絡(luò)科技有限公司,未經(jīng)甘肅智呈網(wǎng)絡(luò)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510707947.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 移動(dòng)向量解碼方法和移動(dòng)向量解碼裝置
- 一種用于支持向量機(jī)的在線向量選取方法
- 用于在幀序列中執(zhí)行運(yùn)動(dòng)估計(jì)的數(shù)據(jù)處理系統(tǒng)和方法
- 神經(jīng)網(wǎng)絡(luò)的處理方法及裝置、存儲介質(zhì)、電子設(shè)備
- 字符序列處理方法及設(shè)備
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲介質(zhì)
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲介質(zhì)
- 近鄰向量的召回方法、裝置、計(jì)算機(jī)設(shè)備及存儲介質(zhì)
- 一種向量運(yùn)算裝置及運(yùn)算方法
- 生成類別向量的方法和裝置





