[發(fā)明專利]一種短文本分類方法有效
| 申請?zhí)枺?/td> | 201710686945.7 | 申請日: | 2017-08-11 |
| 公開(公告)號: | CN107368611B | 公開(公告)日: | 2018-06-26 |
| 發(fā)明(設(shè)計(jì))人: | 康琦;張量 | 申請(專利權(quán))人: | 同濟(jì)大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 蘇州謹(jǐn)和知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 32295 | 代理人: | 葉棟 |
| 地址: | 201804 上*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 短文本分類 超平面 權(quán)重 欠采樣 子域 樣本 多類樣本 文本分類 稀疏性 有效地 采樣 高維 分割 分類 賦予 | ||
本發(fā)明涉及一種短文本分類方法,該短文本分類方法在超平面分割兩類樣本后,計(jì)算每個多類樣本與超平面間的幾何間距,根據(jù)幾何間距劃分多個子域,每個子域區(qū)間被賦予不同的權(quán)重,與超平面距離越遠(yuǎn)的子域,權(quán)重越小,在欠采樣階段,根據(jù)權(quán)重對數(shù)據(jù)進(jìn)行欠采樣,此時,得到的采樣后樣本再導(dǎo)入SVM算法中進(jìn)行分類。故,該短文本分類方法能有效地解決文本分類中的高維度稀疏性和類別不平衡的問題。
技術(shù)領(lǐng)域
本發(fā)明涉及一種短文本分類方法,屬于機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域。
背景技術(shù)
近年來,大數(shù)據(jù)與人工智能技術(shù)迅猛發(fā)展,語音圖像識別、自然語言處理和知識圖譜等已成為熱點(diǎn)研究領(lǐng)域。文本分類(Text Categorization)是機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域中最為典型的問題,擁有了眾多分類算法,如樸素貝葉斯算法K近鄰算法(K-NN),神經(jīng)網(wǎng)絡(luò)算法和支持向量機(jī)(Support VectorMachine,SVM)等。SVM是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的具有較強(qiáng)泛化能力的代表性分類方法,其以結(jié)構(gòu)風(fēng)險(xiǎn)最小化為目標(biāo),通過核函數(shù)的引入來克服維數(shù)災(zāi)難的問題,成為文本分類問題的經(jīng)典候選方法。然而,現(xiàn)實(shí)應(yīng)用場景中,文本數(shù)據(jù)集存在明顯的類分布不平衡問題,特別是短文本天然的高維度稀疏特性,對現(xiàn)有分類算法帶來了挑戰(zhàn)。
基于上述原因,有必要提供一種能夠處理文本分類中的高維度稀疏性和類別不平衡的算法。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種組合類降維算法和加權(quán)欠采樣SVM算法相結(jié)合的方式來處理文本分類中的高維度稀疏性和類別不平衡的問題。
為達(dá)到上述目的,本發(fā)明提供如下技術(shù)方案:一種短文本分類方法,包括以下步驟:
S1、設(shè)置子域的數(shù)目,并初始化訓(xùn)練數(shù)據(jù)集,使用組合類降維算法為所述訓(xùn)練數(shù)據(jù)集中的每個樣本分配所述子域,并對每個所述子域賦予權(quán)重,然后根據(jù)所述權(quán)重得到排序后的樣本向量,再根據(jù)所述樣本向量進(jìn)行欠采樣,得到重采樣數(shù)據(jù)集;
S2、使用加權(quán)欠采樣SVM算法對所述重采樣數(shù)據(jù)集進(jìn)行分類器訓(xùn)練,得到最優(yōu)分類器參數(shù),輸出分類模型。
進(jìn)一步地:步驟S1具體步驟如下:
S11、設(shè)置m個子域,m≥2,并初始化訓(xùn)練數(shù)據(jù)集X:{x1,x2,…,xn};
S12、得到分割所述訓(xùn)練數(shù)據(jù)集X:{x1,x2,…,xn}中兩類樣本的超平面wTx+b=0,計(jì)算每個所述樣本到所述超平面wTx+b=0的幾何間距dj,j∈(1,n);
S13、取所述幾何間距dj的最大值dM和最小值dm,并取每個所述子域的長為:γ=(dM-dm)/m;
S14、根據(jù)所述幾何間距dj、幾何間距的最小值dm以及子域的長γ,確定每個所述樣本所在的子域,并賦予每個所述子域相應(yīng)的權(quán)重;
S15、根據(jù)每個所述權(quán)重將所述子域排序并得到排序后的樣本向量,再根據(jù)每個所述權(quán)重和樣本向量進(jìn)行欠采樣,得到重采樣數(shù)據(jù)集X’:{x1’,x2’,…,xn’}。
進(jìn)一步地:步驟S14具體為:通過公式a=(dj-dm)/γ,確定每個所述樣本在第a個子域中,并賦予每個所述子域相應(yīng)的權(quán)重Wj=1-a/m,j∈(1,m)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于同濟(jì)大學(xué),未經(jīng)同濟(jì)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710686945.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種沸騰爐風(fēng)帽
- 下一篇:膨脹節(jié)端面板
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 權(quán)重調(diào)整模塊與權(quán)重調(diào)整方法
- 網(wǎng)頁主題的分類方法及裝置
- 接收裝置
- 基于權(quán)重濾波的視頻去噪裝置及方法
- 權(quán)重?cái)?shù)據(jù)存儲方法和基于該方法的神經(jīng)網(wǎng)絡(luò)處理器
- 危害因素的權(quán)重因子的確定方法、裝置及存儲介質(zhì)
- 用于優(yōu)化神經(jīng)網(wǎng)絡(luò)的方法
- 處理器
- 用于對深度神經(jīng)網(wǎng)絡(luò)的權(quán)重進(jìn)行轉(zhuǎn)換的方法和系統(tǒng)
- 神經(jīng)網(wǎng)絡(luò)的量化方法、裝置、服務(wù)器和存儲介質(zhì)





