[發(fā)明專利]IG TF-IDF文本特征向量生成及文本分類方法有效
| 申請?zhí)枺?/td> | 201811147525.2 | 申請日: | 2018-09-29 |
| 公開(公告)號: | CN109271517B | 公開(公告)日: | 2021-12-31 |
| 發(fā)明(設(shè)計)人: | 朱志良;梁潔;李德洋;劉國奇;于海 | 申請(專利權(quán))人: | 東北大學(xué) |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/279 |
| 代理公司: | 沈陽東大知識產(chǎn)權(quán)代理有限公司 21109 | 代理人: | 李運萍 |
| 地址: | 110819 遼寧*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | ig tf idf 文本 特征向量 生成 分類 方法 | ||
本發(fā)明具體涉及一種IG TF?IDF文本特征向量生成及文本分類方法,屬于文本挖掘和機器學(xué)習(xí)領(lǐng)域。所述方法包括:1)生成文本特征向量;2)訓(xùn)練分類器;3)評估分類性能;4)對目標(biāo)文本集進行分類;本發(fā)明計算所得權(quán)重更能真實的反映不同詞條對文本分類的重要程度,使得具有強類別區(qū)分能力的詞條被分配更大的權(quán)重,使得權(quán)重計算更加合理,從而提高了文本分類的準(zhǔn)確度;而且計算所得詞條權(quán)重?zé)o需知道具體所述類別,克服了TFADF等有監(jiān)督方法在多類別文本中分類的不足。
技術(shù)領(lǐng)域
本發(fā)明屬于文本挖掘和機器學(xué)習(xí)領(lǐng)域,具體涉及一種IG TF-IDF文本特征向量生成及文本分類方法。
背景技術(shù)
隨著互聯(lián)網(wǎng)時代的到來,文本都以電子文本的方式呈現(xiàn),導(dǎo)致電子文檔的數(shù)量急劇增加,因此,如何對海量數(shù)據(jù)文本進行有效的組織、挖掘變得越來越重要。自動分類就是其中應(yīng)用最為廣泛的技術(shù)手段之一。分類是將文本分到預(yù)定義的類中,是信息檢索和數(shù)據(jù)挖掘領(lǐng)域的研究熱點。一般情況下,將一些具有類別標(biāo)志的文本作為訓(xùn)練數(shù)據(jù),通過機器學(xué)習(xí)算法獲得分類器,然后根據(jù)文本內(nèi)容判斷它的類別。在對文本進行分類前,需要將其表示成計算機能夠處理的形式,向量空間模型(VSM)是常用的文本表示模型,它以特征項作為文本表示的基本單位,從而將文本表示成空間向量的形式。文本經(jīng)分詞得到的特征維數(shù)往往會非常高,可以達(dá)到上萬,甚至幾十萬。大多數(shù)字詞與分類任務(wù)無關(guān),可以刪除而不影響分類效果,刪除不相關(guān)字詞的過程稱為特征選擇,特征選擇依據(jù)特征向量權(quán)重計算方法。在分類前進行特征降維,不但降低了計算復(fù)雜度,而且提高分類效果。因此,在生成文本特征向量時,詞條權(quán)重計算方法是否科學(xué)決定了文本分類的性能。
常見的特征提取方法有,詞頻-反文檔頻率(TF-IDF)、互信息(MI)、信息增益(IG)等。這些評估策略從不同角度度量特征對分類所起的作用。其中,TF-IDF算法基于在信息論中由信息熵證明了其物理含義,因此被廣泛運用于文本挖掘中。TF-IDF的主要思想是:如果某個詞或者短語在一篇文章中出現(xiàn)的頻率高,并且在其它文章中出現(xiàn)較少,則認(rèn)為該詞條有很好的類別區(qū)分能力,適合用來分類。而在實際應(yīng)用中,TF-IDF算法依舊存在缺陷,特別是當(dāng)運用于文本分類時,自動文本分類需要在余弦已分類的文本集上進行訓(xùn)練學(xué)習(xí),然而TF-IDF算法并沒有考慮詞條出現(xiàn)的文本類別,不能充分反映詞條在文本文本分類中的重要性。具體表現(xiàn)在IDF的計算上,比如一個詞條集中出現(xiàn)在某一個類中,按照IDF的定義,它具有較小的類別區(qū)分能力,而事實并非如此。如果一個詞條在一個類的文檔中頻繁出現(xiàn),說明該詞條能夠很好的代表這個類的文本特征,應(yīng)該給予較高的權(quán)重,并選來作為該類文本的詞條以區(qū)別其它類文檔。于是,人們提出了利用詞條的類間分布信息和類內(nèi)分部信息的差異來計算權(quán)重的一些新方法,其中典型代表就是TFATF,他利用詞條的平均詞頻類間集中度和文檔頻類間集中度來計算詞條的權(quán)重,進而提取合適的詞條。然而,TFATF等有監(jiān)督加權(quán)方法所計算的詞條權(quán)重與具體文本的類別有關(guān),而待分類的新聞本的所述類別是未知的,要么針對所有類別逐一用TFATF算法計算權(quán)重,要么采用TF-IDF等傳統(tǒng)方法計算權(quán)重,前者需要在訓(xùn)練學(xué)習(xí)時增加額外的統(tǒng)計信息,后者則在分類或測試時增加了計算量。
發(fā)明內(nèi)容
針對上述存在的技術(shù)問題,本發(fā)明提供一種IG TF-IDF文本特征向量生成及文本分類方法,包括以下步驟:
步驟1:生成文本特征向量:
輸入文本集,每個文本集包括若干文本,若干文本按照其文本類別組成若干數(shù)據(jù)集;基于IG TF-IDF方法,調(diào)節(jié)選項參數(shù),生成每個文本的特征向量F(Dj);所述IG TF-IDF為信息增益詞頻-反文檔頻率,即Information Gain,Term Frequency-Inverse DocumentFrequency;
步驟2:訓(xùn)練分類器:
步驟2.1:將文本集中的特征向量F(Dj)隨機分成5等份,選取其中的4份數(shù)據(jù)組成訓(xùn)練集,剩下的1份作為測試集;
步驟2.2:將訓(xùn)練集輸入分類器進行訓(xùn)練,得到訓(xùn)練后的分類器;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東北大學(xué),未經(jīng)東北大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811147525.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





