[發(fā)明專利]基于可伸縮表示學(xué)習(xí)的長(zhǎng)短文本分類方法在審
| 申請(qǐng)?zhí)枺?/td> | 202011230707.3 | 申請(qǐng)日: | 2020-11-06 |
| 公開(公告)號(hào): | CN112231482A | 公開(公告)日: | 2021-01-15 |
| 發(fā)明(設(shè)計(jì))人: | 汪祥;李小勇;王輝贊;朱俊星;張衛(wèi)民;任開軍;李金才;鄧科峰;吳松;趙娟 | 申請(qǐng)(專利權(quán))人: | 中國(guó)人民解放軍國(guó)防科技大學(xué) |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F16/33;G06F40/194;G06K9/62 |
| 代理公司: | 長(zhǎng)沙大珂知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 43236 | 代理人: | 伍志祥 |
| 地址: | 410073 湖*** | 國(guó)省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 伸縮 表示 學(xué)習(xí) 長(zhǎng)短 文本 分類 方法 | ||
1.基于可伸縮表示學(xué)習(xí)的長(zhǎng)短文本分類方法,其特征在于,包括以下步驟:
步驟1,對(duì)長(zhǎng)短文本集中的文本進(jìn)行預(yù)處理,將文本集表示為特征矩陣n為文本集中的文檔數(shù)量,D為數(shù)據(jù)集中的單詞數(shù),M中的元素為使用TF-IDF方法計(jì)算的對(duì)應(yīng)單詞的權(quán)重;
步驟2,將所述的特征矩陣M輸入到可伸縮表示學(xué)習(xí)過程中,獲得低維目標(biāo)矩陣;
步驟3,采用所述低維目標(biāo)矩陣表示的訓(xùn)練集對(duì)KNN分類器進(jìn)行訓(xùn)練;
步驟4,利用訓(xùn)練好的KNN分類器用于對(duì)待分類文檔進(jìn)行分類;
所述的步驟2中所述的可伸縮表示學(xué)習(xí)過程包括以下步驟:
步驟201,根據(jù)所述的特征矩陣M中的向量成對(duì)相似性,構(gòu)建鄰接圖G,特征矩陣中的向量構(gòu)成鄰接圖的節(jié)點(diǎn);
步驟202,在鄰接圖G中利用加權(quán)隨機(jī)游走模型生成鄰接圖中節(jié)點(diǎn)的上下文;
步驟203,通過擴(kuò)展skip-gram模型來學(xué)習(xí)嵌入表示,獲得嵌入式表示的低維目標(biāo)矩陣。
2.根據(jù)權(quán)利要求1所述的長(zhǎng)短文本分類方法,其特征在于,在步驟201中,鄰接圖G中每一個(gè)節(jié)點(diǎn)代表特征矩陣中的一個(gè)向量,計(jì)算節(jié)點(diǎn)之間的相似性,若兩節(jié)點(diǎn)中一個(gè)節(jié)點(diǎn)是另一個(gè)節(jié)點(diǎn)的前k個(gè)相似性節(jié)點(diǎn),則該兩節(jié)點(diǎn)直接通過邊連接;
在步驟202中,所述的加權(quán)隨機(jī)游走模型是一種在鄰接圖上生成隨機(jī)序列的方法,假如(xw1,xw2,…,xwl)是一個(gè)長(zhǎng)度為l的隨機(jī)序列,采用一個(gè)大小為c的滑動(dòng)窗口來表示一個(gè)節(jié)點(diǎn)的上下文,隨機(jī)序列中節(jié)點(diǎn)xwj的上下文NC(xwj)可以表示為NC(xwj)={xwm|-c≤m-j≤c,m∈(1,2,…,l)},在鄰接圖中,給定前一個(gè)節(jié)點(diǎn)xw(t-1)=vb,采用下面公式計(jì)算當(dāng)前節(jié)點(diǎn)是va的概率:
其中,E是鄰接圖的邊集,P表示條件概率,sim()表示兩個(gè)節(jié)點(diǎn)之間的相似度,是一個(gè)歸一化常數(shù);
在步驟203中,所述的擴(kuò)展skip-gram模型中用于學(xué)習(xí)嵌入表示的目標(biāo)函數(shù)為:
其中,f表示所要計(jì)算得到的目標(biāo)函數(shù),其實(shí)現(xiàn)將當(dāng)前的高維數(shù)據(jù)表示為低維數(shù)據(jù),但是仍然保持降維表示后數(shù)據(jù)之間的相似度信息,NC(xi)表示為xi的上下文,exp()表示以e為底的指數(shù)函數(shù)。
3.根據(jù)權(quán)利要求2所述的長(zhǎng)短文本分類方法,其特征在于,在步驟203中使用負(fù)采樣方法對(duì)進(jìn)行近似快速計(jì)算,利用gensim工具包實(shí)施負(fù)采樣,并將采樣閾值設(shè)置為0.001,使用隨機(jī)梯度下降優(yōu)化所述的目標(biāo)函數(shù),并以此學(xué)習(xí)獲得函數(shù)f。
4.根據(jù)權(quán)利要求1所述的長(zhǎng)短文本分類方法,其特征在于,在步驟201中采用余弦相似性度量節(jié)點(diǎn)之間的相似性。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)人民解放軍國(guó)防科技大學(xué),未經(jīng)中國(guó)人民解放軍國(guó)防科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011230707.3/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





