[發(fā)明專利]一種文本分類方法有效
| 申請(qǐng)?zhí)枺?/td> | 201810599385.6 | 申請(qǐng)日: | 2018-06-12 |
| 公開(公告)號(hào): | CN108829818B | 公開(公告)日: | 2021-05-25 |
| 發(fā)明(設(shè)計(jì))人: | 趙莉;姜松浩;張程;趙曉芳;段東圣;杜翠蘭 | 申請(qǐng)(專利權(quán))人: | 中國(guó)科學(xué)院計(jì)算技術(shù)研究所 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35 |
| 代理公司: | 北京泛華偉業(yè)知識(shí)產(chǎn)權(quán)代理有限公司 11280 | 代理人: | 王勇 |
| 地址: | 100190 北*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 分類 方法 | ||
本發(fā)明提供了一種構(gòu)建文本分類模型的方法。該方法包括以下步驟:根據(jù)文本信息的字、詞語和句子的結(jié)構(gòu)特征構(gòu)建訓(xùn)練樣本集,其中,所述訓(xùn)練樣本集中的每一條樣本數(shù)據(jù)對(duì)應(yīng)一條文本信息關(guān)于詞語的特征矩陣A、關(guān)于字的特征矩陣B和該條文本信息對(duì)應(yīng)的類別向量O,O的維度與類別數(shù)量相同;以所述訓(xùn)練樣本集中關(guān)于詞語的特征矩陣A和關(guān)于字的特征矩陣B為輸入,以對(duì)應(yīng)的類別向量O為輸出,訓(xùn)練深度學(xué)習(xí)模型,以獲得文本分類模型。根據(jù)本發(fā)明構(gòu)建的分類模型進(jìn)行分類,能夠提高文本分類的準(zhǔn)確率,尤其適用于短文本分類。
技術(shù)領(lǐng)域
本發(fā)明涉及深度學(xué)習(xí)技術(shù)領(lǐng)域,尤其涉及一種文本分類方法。
背景技術(shù)
文本分類是指按照預(yù)先定義的主題類別,為文檔集合中的每個(gè)文檔確定一個(gè)類別。文本分類技術(shù)在日常生活中具有廣泛的應(yīng)用,例如,對(duì)垃圾短信和郵件的過濾,對(duì)新聞的分組查閱等等。
隨著微博、微信等社交方式的快速發(fā)展,短文本成為一種重要的信息形式,短文本通常具有的特點(diǎn)包括:字?jǐn)?shù)少,短文本的長(zhǎng)度通常都比較短,一般在200字以內(nèi),因此,所包含的有效信息也非常少;更新快,在互聯(lián)網(wǎng)上出現(xiàn)的短文本形式的信息,大部分都是實(shí)時(shí)更新的,刷新速度非常快,例如,聊天信息、微博信息、評(píng)論信息等,并且文本數(shù)量非常龐大;不規(guī)范,短文本中可能存在不規(guī)范用語,例如“94”代表“就是”,“88”代表“再見”,“童鞋”代表“同學(xué)”,又如“傷不起”、“有木有”、“坑爹”等。
在現(xiàn)有技術(shù)中的文本分類方法中,文本分類準(zhǔn)確率不高,尤其對(duì)短文本分類的效果不理想,目前,常用的短文本分類方法有:
第一、基于關(guān)鍵詞匹配的文本分類方法,這是一種比較傳統(tǒng)的方法,需要人工配置某些關(guān)鍵詞,然后與每個(gè)需要分類的文本進(jìn)行關(guān)鍵詞匹配,匹配到不同的關(guān)鍵詞之后再根據(jù)關(guān)鍵詞的性質(zhì)將文本劃分為不同的類別。這種方法需要人工構(gòu)造關(guān)鍵詞的字典,而且對(duì)于新出現(xiàn)的詞需要不斷地更新字典,不能保證分類結(jié)果的準(zhǔn)確性,人工成本也很高,對(duì)于快速更新的大數(shù)據(jù)量的短文本,這種方式存在很明顯的速度慢的問題。
第二、基于傳統(tǒng)機(jī)器學(xué)習(xí)的文本分類方法,該方法將傳統(tǒng)的機(jī)器學(xué)習(xí),例如,分類模型的樸素貝葉斯、支持向量機(jī)(SVM)、K近鄰、邏輯回歸等方法應(yīng)用到文本分類中。這種方法操作簡(jiǎn)單,計(jì)算復(fù)雜度低,但有很大的局限性,例如,樸素貝葉斯解決文本分類問題時(shí)必須滿足位置獨(dú)立性和條件獨(dú)立性的假設(shè),但是這兩種假設(shè)在實(shí)際中并不成立,而且,大多數(shù)傳統(tǒng)的機(jī)器學(xué)習(xí)方法都是針對(duì)小規(guī)模、單標(biāo)號(hào)且平衡的問題設(shè)計(jì)的,對(duì)于大規(guī)模的短文本數(shù)據(jù),高維度的特征表示有很大的局限性。此外,基于傳統(tǒng)機(jī)器學(xué)習(xí)的文本分類方法在數(shù)據(jù)預(yù)處理上需要花費(fèi)大量的時(shí)間,對(duì)文本特征的提取也有很嚴(yán)格的要求,而特征提取的恰當(dāng)與否對(duì)于分類結(jié)果會(huì)有很大的影響。
第三、基于深度學(xué)習(xí)的文本分類方法,該方法將深度學(xué)習(xí),例如全連接神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等應(yīng)用到文本分類中,使用神經(jīng)網(wǎng)絡(luò)處理文本分類時(shí),不需要將大量時(shí)間放到數(shù)據(jù)的預(yù)處理上,將數(shù)據(jù)輸入到神經(jīng)網(wǎng)絡(luò)之后,就可以自動(dòng)抽取到有價(jià)值的特征,然后再進(jìn)行后續(xù)的分析處理。盡管這種方法在一定程度上彌補(bǔ)了很多傳統(tǒng)機(jī)器學(xué)習(xí)的缺點(diǎn),但是對(duì)于全連接神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)而言,神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)是文本的高維向量表示,并沒有考慮到語序問題,而一段文本文檔中的詞語的語序往往蘊(yùn)含了大量的有價(jià)值信息,其表述思想與上下文緊密相關(guān)。現(xiàn)有的這種基于深度學(xué)習(xí)的分類方法會(huì)導(dǎo)致丟失大量的有價(jià)值的信息,進(jìn)而使分類結(jié)果不準(zhǔn)確。
因此,需要對(duì)現(xiàn)有技術(shù)進(jìn)行改進(jìn),以提供分類準(zhǔn)確度高的文本分類方法,并且使其更適用于短文本分類。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的缺陷,提供一種文本分類方法,能夠有效的避免文本信息的丟失,實(shí)現(xiàn)高容錯(cuò)的效果,該方法尤其適用于短文本的分類場(chǎng)景。
根據(jù)本發(fā)明的第一方面,提供了一種構(gòu)建文本分類模型的方法。該方法包括以下步驟:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)科學(xué)院計(jì)算技術(shù)研究所,未經(jīng)中國(guó)科學(xué)院計(jì)算技術(shù)研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810599385.6/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





