[發(fā)明專利]一種層次型文本分類方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201910767580.X | 申請日: | 2019-08-20 |
| 公開(公告)號: | CN110543563B | 公開(公告)日: | 2022-03-08 |
| 發(fā)明(設(shè)計)人: | 劉波;李洋洋 | 申請(專利權(quán))人: | 暨南大學(xué) |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/31;G06F40/289;G06V30/19;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 廣州市華學(xué)知識產(chǎn)權(quán)代理有限公司 44245 | 代理人: | 劉巧霞 |
| 地址: | 510632 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 層次 文本 分類 方法 系統(tǒng) | ||
1.一種層次型文本分類方法,其特征在于,包括步驟:
根據(jù)文本類標(biāo)簽的樹型層次結(jié)構(gòu),給文本類標(biāo)簽層次樹中的類標(biāo)簽節(jié)點編號;在每個非葉節(jié)點上訓(xùn)練分類器,分類器輸出初步預(yù)測類標(biāo)簽概率向量,向量元素代表該文本被分為每一個類標(biāo)簽的概率;然后利用文本類標(biāo)簽之間的聯(lián)系,訓(xùn)練調(diào)整概率矩陣,調(diào)整概率矩陣中元素是類標(biāo)簽被調(diào)整為各個類標(biāo)簽的概率;通過訓(xùn)練得到的調(diào)整概率矩陣對文本類標(biāo)簽進(jìn)行全局統(tǒng)籌修正,構(gòu)建全局層次型文本分類模型,包括步驟:
(1)訓(xùn)練階段:針對訓(xùn)練集文本,對每一文本進(jìn)行預(yù)處理,對預(yù)處理后的文本向量化,即將文本中的單詞表示為向量形式,每個文本對應(yīng)得到一詞向量,所有訓(xùn)練集文本匯總得到文本向量集;
根據(jù)文本類標(biāo)簽的樹型層次結(jié)構(gòu),給文本類標(biāo)簽層次樹中的類標(biāo)簽節(jié)點編號;將文本向量集及其對應(yīng)到各層類別的文本子集作為訓(xùn)練集,采用神經(jīng)網(wǎng)絡(luò)分別針對根節(jié)點以及根節(jié)點下面的非葉節(jié)點構(gòu)建分類器,根節(jié)點對應(yīng)的分類器類標(biāo)簽為根節(jié)點下一層中的孩子節(jié)點類標(biāo)簽,第k層節(jié)點對應(yīng)的分類器類標(biāo)簽為第k+1層中的孩子節(jié)點類標(biāo)簽;分類器輸出初步預(yù)測類標(biāo)簽概率向量,向量元素代表該文本被分為每一個類標(biāo)簽的概率;
利用文本真實類標(biāo)簽概率向量和所述初步預(yù)測類標(biāo)簽概率向量訓(xùn)練調(diào)整概率矩陣,所述調(diào)整概率矩陣中元素是類標(biāo)簽被調(diào)整為各個類標(biāo)簽的概率;
(2)分類階段:針對待分類文本,對文本進(jìn)行預(yù)處理,將預(yù)處理后的文本向量化,然后輸入到上述訓(xùn)練好的分類器中,得到初步預(yù)測類標(biāo)簽概率向量;將初步預(yù)測類標(biāo)簽概率向量利用訓(xùn)練好的調(diào)整概率矩陣,調(diào)整計算待分類文本為各個類標(biāo)簽的概率,最后根據(jù)概率確定待分類文本的類標(biāo)簽;
利用文本真實類標(biāo)簽概率向量和初步預(yù)測類標(biāo)簽概率向量,采用神經(jīng)網(wǎng)絡(luò)的方法訓(xùn)練調(diào)整概率矩陣W,W為一個l×l的二維矩陣,l是文本類標(biāo)簽層次樹中類標(biāo)簽總數(shù)目,wi,j代表編號i類標(biāo)簽被調(diào)整為編號j類標(biāo)簽的概率,神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如下:
輸入層:初步預(yù)測類標(biāo)簽概率向量元素f1,f2,...fl;
隱藏層:包含的單元數(shù)為l,隱含節(jié)點用z1,z2,...zl表示;
輸入層節(jié)點與隱含層節(jié)點之間的參數(shù)wi,j即為調(diào)整概率矩陣W中的元素;
f1,f2,…fl經(jīng)過調(diào)整概率矩陣調(diào)整得到z1,z2,...zl節(jié)點的輸出值,接著通過softmax層把z1,z2,…zl節(jié)點的輸出值轉(zhuǎn)換為[0,1]區(qū)間的值,即最終輸出層的預(yù)測值F1,F2,...,Fl;
采用梯度下降法用訓(xùn)練集中文本的真實類標(biāo)簽y1,y2,...,yl去學(xué)習(xí)調(diào)整概率矩陣W;
輸出層的預(yù)測值Fi按照公式(1)計算:
其中:Relu為激活函數(shù),如公式(2)所示:
softmax函數(shù)計算方法如公式(3)所示:
在公式(1)和(3)中:1≤i≤l,1≤j≤l。
2.根據(jù)權(quán)利要求1所述的層次型文本分類方法,其特征在于,步驟(1)中,對每一文本進(jìn)行預(yù)處理,預(yù)處理包括:針對中文文本的分詞,去除標(biāo)點符號,針對英文單詞將大寫字母轉(zhuǎn)成小寫,以及去停用詞和低頻率詞。
3.根據(jù)權(quán)利要求1所述的層次型文本分類方法,其特征在于,步驟(1)中,采用word2vec訓(xùn)練詞向量的軟件工具,將文本中的單詞表示為向量形式。
4.根據(jù)權(quán)利要求1所述的層次型文本分類方法,其特征在于,步驟(1)中,給文本類標(biāo)簽層次樹中的類標(biāo)簽節(jié)點編號,根節(jié)點編號為0,其他節(jié)點編號為1,2,....l,其中,l是類標(biāo)簽的總數(shù)目。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于暨南大學(xué),未經(jīng)暨南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910767580.X/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





