[發(fā)明專(zhuān)利]文本分類(lèi)方法、電子設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202110757754.1 | 申請(qǐng)日: | 2021-07-05 |
| 公開(kāi)(公告)號(hào): | CN113254655B | 公開(kāi)(公告)日: | 2021-09-17 |
| 發(fā)明(設(shè)計(jì))人: | 杜軍平;喻博文;邵鎣俠;徐欣;李昂 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京郵電大學(xué) |
| 主分類(lèi)號(hào): | G06F16/35 | 分類(lèi)號(hào): | G06F16/35;G06F40/289;G06F40/35 |
| 代理公司: | 北京金咨知識(shí)產(chǎn)權(quán)代理有限公司 11612 | 代理人: | 秦景芳 |
| 地址: | 100876 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 分類(lèi) 方法 電子設(shè)備 計(jì)算機(jī) 存儲(chǔ) 介質(zhì) | ||
本發(fā)明提供了一種文本分類(lèi)方法、電子設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì),其中,該方法包括:獲取多個(gè)話(huà)題類(lèi)別及其對(duì)應(yīng)的多個(gè)詞和多個(gè)文檔;統(tǒng)計(jì)每個(gè)話(huà)題類(lèi)別的所有文檔中包含該話(huà)題類(lèi)別對(duì)應(yīng)的每個(gè)詞的第一文檔數(shù)量和所有話(huà)題類(lèi)別的所有文檔中包含每個(gè)話(huà)題類(lèi)別的每個(gè)詞的第二文檔數(shù)量;計(jì)算每個(gè)話(huà)題類(lèi)別的每個(gè)詞的第一文檔數(shù)量與第二文檔數(shù)量的比值,作為詞對(duì)話(huà)題覆蓋率;若詞的詞對(duì)話(huà)題覆蓋率大于設(shè)定閾值,將該詞選作相應(yīng)話(huà)題類(lèi)別的特征詞,得到相應(yīng)類(lèi)別特征詞袋;對(duì)待分類(lèi)文檔分詞,以得到待分類(lèi)文檔的詞袋模型;計(jì)算待分類(lèi)文檔的詞袋模型與各類(lèi)別特征詞袋的相似度;根據(jù)各相似度確定該待分類(lèi)文檔的類(lèi)別。通過(guò)上述方案能夠利用較少標(biāo)注完成文本分類(lèi)任務(wù)。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語(yǔ)言處理技術(shù)領(lǐng)域,尤其涉及一種文本分類(lèi)方法、電子設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)。
背景技術(shù)
文本分類(lèi)是一個(gè)傳統(tǒng)的自然語(yǔ)言處理問(wèn)題,具有很大的實(shí)用價(jià)值,是實(shí)現(xiàn)垃圾信息過(guò)濾、新聞自動(dòng)歸檔、文本數(shù)據(jù)挖掘等多種任務(wù)的支撐技術(shù)。經(jīng)典的文本分類(lèi)問(wèn)題是根據(jù)高質(zhì)量的有標(biāo)注文本進(jìn)行學(xué)習(xí)后,對(duì)新文本賦予合理類(lèi)別標(biāo)簽的過(guò)程。傳統(tǒng)的文本分類(lèi)方法關(guān)注文本的統(tǒng)計(jì)特征、淺層語(yǔ)義特征,如TF-IDF、n-gram模型、詞嵌入等方式,并建立文本特征向量,結(jié)合分類(lèi)算法實(shí)現(xiàn)文本分類(lèi)任務(wù),分類(lèi)算法包括樸素貝葉斯、邏輯回歸、支持向量機(jī)、決策樹(shù)等等。近年來(lái),隨著深度學(xué)習(xí)的快速發(fā)展,由于其對(duì)特征的自動(dòng)提取和端到端解決問(wèn)題的優(yōu)勢(shì),越來(lái)越多的深度學(xué)習(xí)模型應(yīng)用于文本分類(lèi)領(lǐng)域,包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)、膠囊網(wǎng)絡(luò)等等。然而這些方法和模型都需要大量的高質(zhì)量的標(biāo)注語(yǔ)料,另外還需要高性能硬件的支持,這些支持包括強(qiáng)大的CPU、GPU計(jì)算資源和大容量的內(nèi)存。對(duì)于缺乏標(biāo)注或缺少高性能機(jī)器的支持的情況,這些模型難以實(shí)現(xiàn)任務(wù)目標(biāo)。
對(duì)于缺少標(biāo)注的情況,大量半監(jiān)督或無(wú)監(jiān)督的方法也被提出。這些方法一般需要利用外部知識(shí)的幫助,例如使用Wikipedia作為背景知識(shí),以及使用WordNet中的同義詞信息,這些方法往往利用這些外部知識(shí),同時(shí)結(jié)合主題建模實(shí)現(xiàn)文本分類(lèi)任務(wù)。適合缺乏標(biāo)注的場(chǎng)景,但分類(lèi)性能較差。
傳統(tǒng)文本分類(lèi)模型,通過(guò)如詞頻向量、TF-IDF(詞頻-逆文檔頻率)向量等特征表示方法,經(jīng)過(guò)文本特征工程,文本特征降維,將文本特征向量輸入傳統(tǒng)的分類(lèi)模型中。此外,常見(jiàn)的基于深度學(xué)習(xí)技術(shù)進(jìn)行文本分類(lèi)的方法,利用深度卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)或圖卷積神經(jīng)網(wǎng)絡(luò)等模型提取文本的深度語(yǔ)義特征,端到端的解決文本分類(lèi)問(wèn)題。該些方法需要在人工提取特征的基礎(chǔ)上進(jìn)行大量的工作,或者通過(guò)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行深度特征提取。然而,傳統(tǒng)的文本分類(lèi)方法或基于深度學(xué)習(xí)的方法非常依賴(lài)于訓(xùn)練數(shù)據(jù),難以應(yīng)對(duì)缺乏標(biāo)注的場(chǎng)景。并且,該類(lèi)方法也需要高性能機(jī)器的支持,深度語(yǔ)言模型尤其依賴(lài)CPU和GPU計(jì)算資源,以及大容量的內(nèi)存,難以應(yīng)用于對(duì)時(shí)空復(fù)雜度敏感的任務(wù)中。
利用外部知識(shí)以及專(zhuān)家知識(shí),例如Wikipedia作為外部背景知識(shí),F(xiàn)AC-ALLKeyword算法使用專(zhuān)家知識(shí)提供類(lèi)別關(guān)鍵詞,使用WordNet提供同義詞或近義詞信息,使用Word Embedding技術(shù)尋找相似的詞,通過(guò)構(gòu)建類(lèi)別詞庫(kù)以及使用主題模型LDA(LinearDiscriminant Analysis,線(xiàn)性判別分析)建模的方法,實(shí)現(xiàn)文本分類(lèi)。
該些主要應(yīng)用于缺乏標(biāo)注的場(chǎng)景,需要大量的人工特征工程成本,依賴(lài)外部知識(shí)庫(kù)、專(zhuān)家知識(shí)、同近義詞知識(shí)等,自動(dòng)化、智能化水平相對(duì)較低,在諸如精確率、召回率、f1分?jǐn)?shù)等多個(gè)評(píng)價(jià)指標(biāo)上,表現(xiàn)較差。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明提供了一種文本分類(lèi)方法、電子設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì),以利用較少標(biāo)注完成文本分類(lèi)任務(wù)。
為了達(dá)到上述目的,本發(fā)明采用以下方案實(shí)現(xiàn):
根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種文本分類(lèi)方法,包括:
獲取多個(gè)話(huà)題類(lèi)別和每個(gè)話(huà)題類(lèi)別對(duì)應(yīng)的多個(gè)詞和多個(gè)文檔;
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京郵電大學(xué),未經(jīng)北京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110757754.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 數(shù)據(jù)分類(lèi)的方法和裝置
- 一種圖像分類(lèi)方法及裝置
- 報(bào)文分類(lèi)方法及網(wǎng)絡(luò)設(shè)備
- 一種短文本多標(biāo)簽分類(lèi)方法及裝置
- 一種高正確率的自然語(yǔ)言分類(lèi)器系統(tǒng)
- 多分類(lèi)模型優(yōu)化方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 一種回收部件的分類(lèi)回收箱和分類(lèi)驗(yàn)收裝置
- 一種回收部件的分類(lèi)回收箱和分類(lèi)驗(yàn)收裝置
- 一種基于神經(jīng)網(wǎng)絡(luò)的文本分類(lèi)方法和裝置
- 一種塑料大小分類(lèi)機(jī)
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線(xiàn)程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





