[發(fā)明專利]一種基于多詞的文本表示策略的文本分類方法在審
| 申請?zhí)枺?/td> | 201810279410.2 | 申請日: | 2018-03-30 |
| 公開(公告)號: | CN108536792A | 公開(公告)日: | 2018-09-14 |
| 發(fā)明(設(shè)計)人: | 周武能;杜薇 | 申請(專利權(quán))人: | 東華大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海泰能知識產(chǎn)權(quán)代理事務(wù)所 31233 | 代理人: | 宋纓;錢文斌 |
| 地址: | 201620 上海市*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本分類 文本表示 文本 正則表達式 數(shù)據(jù)集中 重復(fù)模式 計算量 數(shù)據(jù)集 特征集 語料庫 匹配 儲存 評估 | ||
1.一種基于多詞的文本表示策略的文本分類方法,其特征在于,包括以下步驟:
(1)選取公開文本分類數(shù)據(jù)集并進行處理;
(2)對數(shù)據(jù)集中的文本進行多詞提取,儲存到語料庫;
(3)用不同的文本表示策略對多詞處理,形成文本完整的特征集,最后評估多詞在不同策略中表征的有效性。
2.根據(jù)權(quán)利要求1所述的基于多詞的文本表示策略的文本分類方法,其特征在于,所述步驟(1)中處理公開文本分類數(shù)據(jù)集時,采用信息增益參數(shù)去除非信息詞匯,降低空間維度,構(gòu)建較低空間維度級別的正交維度新特征。
3.根據(jù)權(quán)利要求1所述的基于多詞的文本表示策略的文本分類方法,其特征在于,所述步驟(1)中公開文本分類數(shù)據(jù)集采用reuters-21578。
4.根據(jù)權(quán)利要求1所述的基于多詞的文本表示策略的文本分類方法,其特征在于,所述步驟(2)中多詞提取采用正則表達式,并采用重復(fù)模式算法減少計算復(fù)雜度,提高分類精度,具體步驟如下:
(21)從訓(xùn)練集中取出兩個單個句子S1和S2;
(22)抽取單個句子S2中的一個詞組;
(23)將抽取的詞組與單個句子S1里的詞組逐詞對比;
(24)當(dāng)單個句子S1中的詞組和單個句子S2中對照的詞組一致時,則儲存到語料庫;
(25)重復(fù)步驟(22),直到單個句子S2中的詞組全部選取完畢;
(26)重復(fù)步驟(21),直到訓(xùn)練集中的單句全部選取完畢;
(27)將以上步驟提取出的重復(fù)詞組,送入正則表達式,提取出多詞,其正則表達式計算式為((A|B)+|((A|N)*(NP)?(A|N)*)N,其中,其中A是形容詞,N是名詞,P是介詞,“|”表示將兩個匹配條件進行邏輯“或”運算,“+”表示匹配前面的子表達式一次或多次,“*”表示匹配前面的子表達式任意次,“?”表示匹配前面的子表達式零次或一次。
5.根據(jù)權(quán)利要求1所述的基于多詞的文本表示策略的文本分類方法,其特征在于,所述步驟(3)中多詞處理的策略為分解策略,在這個策略中,只有短多字用來表示文本的一般概念,提出k-mismatch算法;所述分解策略的具體步驟如下:從語料庫中逐個獲取多詞;將復(fù)合長多詞分解為詞組;計算詞組出現(xiàn)頻率,詞組權(quán)重為詞組的出現(xiàn)頻率;將帶權(quán)重的詞組送入支持向量機進行文本分類。
6.根據(jù)權(quán)利要求1所述的基于多詞的文本表示策略的文本分類方法,其特征在于,所述步驟(3)中多詞處理的策略為組合策略,在這個策略中,只有長多字用來表示文本的一般概念,設(shè)置兩個參數(shù)以確定文檔中是否出現(xiàn)能夠代替組合單個詞組的多詞;所述組合策略的具體步驟如下:將語料庫所有的多詞分解成單個詞組,設(shè)為S={s1,...,sn},S是單個詞組序列集合,si是第i個單個詞組;從語料庫中取出一個多詞,設(shè)為W={w1,...,wm},W是一個多詞,wi是W中的第i個單個詞組,并定義Lm={am,1,am,2,…,am,tm},其中am,i表示集合S中的第m個出現(xiàn)wm的位置;遍歷該多詞W的所有單個詞組wi,如果單個詞組wi出現(xiàn)在集合S中,則把單個詞組wi存入集合W0,計算比率OR=|W0|/|W|,|W0|表示集合W0單個詞組個數(shù),|W|表示多次W單個詞組個數(shù);遍歷集合W0中所有的單個詞組wi,計算單個詞組出現(xiàn)的距離,公式如下:|Li|=max{a1,i,a2,*i,…,am,*i}-min{a1,i,a2,*i,…,am,*i};計算最小范圍MS=min|Li|,其中1≤i≤|W0|;取語料庫的下一個多詞,重復(fù)上述步驟,直到計算出所有多詞的比率OR和最小范圍MS。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東華大學(xué),未經(jīng)東華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810279410.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





