[發(fā)明專利]基于可伸縮表示學(xué)習(xí)的長短文本分類方法在審
| 申請?zhí)枺?/td> | 202011230707.3 | 申請日: | 2020-11-06 |
| 公開(公告)號: | CN112231482A | 公開(公告)日: | 2021-01-15 |
| 發(fā)明(設(shè)計)人: | 汪祥;李小勇;王輝贊;朱俊星;張衛(wèi)民;任開軍;李金才;鄧科峰;吳松;趙娟 | 申請(專利權(quán))人: | 中國人民解放軍國防科技大學(xué) |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/33;G06F40/194;G06K9/62 |
| 代理公司: | 長沙大珂知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 43236 | 代理人: | 伍志祥 |
| 地址: | 410073 湖*** | 國省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 伸縮 表示 學(xué)習(xí) 長短 文本 分類 方法 | ||
本發(fā)明公開了基于可伸縮表示學(xué)習(xí)的長短文本分類方法,包括以下步驟:對長短文本集中的文本進行預(yù)處理,將文本集表示為特征矩陣M,M中的元素為使用TF?IDF方法計算的對應(yīng)單詞的權(quán)重;將所述的特征矩陣M輸入到可伸縮表示學(xué)習(xí)過程中,獲得低維目標(biāo)矩陣;采用所述低維目標(biāo)矩陣表示的訓(xùn)練集對KNN分類器進行訓(xùn)練;利用訓(xùn)練好的KNN分類器用于對待分類文檔進行分類。本發(fā)明方法設(shè)計了可伸縮表示學(xué)習(xí)方法,該方法保留了數(shù)據(jù)的相似關(guān)系,可擴展且易于并行化,適用于長短文本的通用分類應(yīng)用,實驗表明,在大規(guī)模長短文本的分類問題中本發(fā)明方法展現(xiàn)出較好的分類性能。
技術(shù)領(lǐng)域
本發(fā)明屬于自然語言處理技術(shù)領(lǐng)域,具體涉及基于可伸縮表示學(xué)習(xí)的長短文本分類方法。
背景技術(shù)
在文本分類的機器學(xué)習(xí)和數(shù)據(jù)挖掘應(yīng)用中,輸入數(shù)據(jù)始終由冗余特征或噪聲組成,這會對機器學(xué)習(xí)和數(shù)據(jù)挖掘方法的泛化能力產(chǎn)生負面影響。結(jié)果,許多實際的工作不得不用在數(shù)據(jù)預(yù)處理和數(shù)據(jù)轉(zhuǎn)換過程方面,以將機器學(xué)習(xí)和數(shù)據(jù)挖掘有效地應(yīng)用于實際問題中。眾所周知,特征工程非常重要,但是需要大量的人工,這突出了從許多機器學(xué)習(xí)算法的數(shù)據(jù)中提取和組織區(qū)分性信息的弱點。為了解決該問題并提高數(shù)據(jù)質(zhì)量,減輕維度問題的困擾并進一步減少存儲量,開發(fā)數(shù)據(jù)表示學(xué)習(xí)方法非常重要。
通常,在機器學(xué)習(xí)任務(wù)有三種表示數(shù)據(jù)的學(xué)習(xí)方法:特征選擇,降維和嵌入式表示表示學(xué)習(xí)。(1)特征選擇涉及從所有可用變量中選擇最佳變量集。典型的特征選擇方法包括Relief,Las Vegas Wrapper等方法,其特征的種類嚴(yán)格限制功能的可用表示形式。(2)降維研究如何在保留最重要信息的同時縮小數(shù)據(jù)大小,有許多經(jīng)典的線性和非線性降維算法,例如PCA(主成分分析),LLE(局部線性嵌入),SVD(奇異值分解)和LE(拉普拉斯特征圖譜)。盡管這些方法在沒有指定數(shù)據(jù)域的情況下適用于矩陣的低維表示,但是它們具有很高的計算和存儲復(fù)雜性,并且難以應(yīng)用于大規(guī)模數(shù)據(jù)的表示學(xué)習(xí)。例如,LLE和LE的計算復(fù)雜度均為O(n2)(與數(shù)據(jù)點的數(shù)量成正比)。(3)嵌入式表示學(xué)習(xí)旨在利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)數(shù)據(jù)的信息表示。但是嵌入式表示學(xué)習(xí)的方法一般是在指定域中使用,在長文本和短文本共同分類的應(yīng)用中難以通用地適應(yīng)矩陣的低維數(shù)據(jù)表示。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的在于提出基于可伸縮表示學(xué)習(xí)的長短文本分類方法,所述方法克服現(xiàn)有技術(shù)的不足,用于對長短文本集中的文本進行快速高效地分類,本發(fā)明方法使用神經(jīng)網(wǎng)絡(luò)進行數(shù)據(jù)表示,它既可以利用嵌入表示學(xué)習(xí)方法高效計算的優(yōu)勢,又可以利用降維方法可以不使用指定數(shù)據(jù)域而適應(yīng)常規(guī)數(shù)據(jù)表示學(xué)習(xí)的特點。本發(fā)明方法能夠更好地在長文本和短文本共同分類的應(yīng)用中通用地進行適應(yīng)矩陣的低維數(shù)據(jù)表示
基于上述目的,基于可伸縮表示學(xué)習(xí)的長短文本分類方法,包括以下步驟:
步驟1,對長短文本集中的文本進行預(yù)處理,將文本集表示為特征矩陣n為文本集中的文檔數(shù)量,D為數(shù)據(jù)集中的單詞數(shù),M中的元素為使用TF-IDF(term frequency–inverse document frequency)方法計算的對應(yīng)單詞的權(quán)重;
步驟2,將所述的特征矩陣M輸入到可伸縮表示學(xué)習(xí)過程中,獲得低維目標(biāo)矩陣;
步驟3,采用所述低維目標(biāo)矩陣表示的訓(xùn)練集對KNN(k-Nearest Neighbor)分類器進行訓(xùn)練;
步驟4,利用訓(xùn)練好的KNN分類器用于對待分類文檔進行分類。
具體地,所述的步驟2中所述的可伸縮表示學(xué)習(xí)過程包括以下步驟:
步驟201,根據(jù)所述的特征矩陣M中的向量成對相似性,構(gòu)建鄰接圖G,特征矩陣中的向量構(gòu)成鄰接圖的節(jié)點;
步驟202,在鄰接圖G中利用加權(quán)隨機游走模型生成鄰接圖中節(jié)點的上下文;
步驟203,通過擴展skip-gram模型來學(xué)習(xí)嵌入表示,獲得嵌入式表示的低維目標(biāo)矩陣。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國人民解放軍國防科技大學(xué),未經(jīng)中國人民解放軍國防科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011230707.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進式學(xué)習(xí)管理方法及漸進式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





