[發(fā)明專(zhuān)利]基于圖網(wǎng)絡(luò)的標(biāo)題和正文結(jié)合的文本分類(lèi)方法有效
| 申請(qǐng)?zhí)枺?/td> | 202011233244.6 | 申請(qǐng)日: | 2020-11-06 |
| 公開(kāi)(公告)號(hào): | CN112347255B | 公開(kāi)(公告)日: | 2021-11-23 |
| 發(fā)明(設(shè)計(jì))人: | 謝宗霞;袁春宇 | 申請(qǐng)(專(zhuān)利權(quán))人: | 天津大學(xué) |
| 主分類(lèi)號(hào): | G06F16/35 | 分類(lèi)號(hào): | G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 天津市北洋有限責(zé)任專(zhuān)利代理事務(wù)所 12201 | 代理人: | 李麗萍 |
| 地址: | 300072*** | 國(guó)省代碼: | 天津;12 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 網(wǎng)絡(luò) 標(biāo)題 正文 結(jié)合 文本 分類(lèi) 方法 | ||
本發(fā)明公開(kāi)了一種基于圖網(wǎng)絡(luò)的標(biāo)題和正文結(jié)合的文本分類(lèi)方法,主要包括:將每篇文檔劃分為標(biāo)題文檔和正文文檔,分別進(jìn)行數(shù)據(jù)預(yù)處理,獲取標(biāo)題詞集合和正文詞集合,利用詞向量模型獲取詞向量表示,利用LDA模型獲取主題向量,利用HAN模型來(lái)獲取正文文檔特征表示,通過(guò)標(biāo)題、標(biāo)題詞集合、主題三類(lèi)節(jié)點(diǎn)構(gòu)建異質(zhì)圖,并輸入到GAT模型,實(shí)現(xiàn)標(biāo)題和正文特征融合,獲得每篇文檔特征表示,通過(guò)Softmax函數(shù)進(jìn)行文本類(lèi)別預(yù)測(cè)。本發(fā)明分類(lèi)方法不僅利用額外信息來(lái)增強(qiáng)標(biāo)題語(yǔ)義稀疏性,而且更好地融合標(biāo)題和正文特征,體現(xiàn)了標(biāo)題在文本分類(lèi)任務(wù)中的重要性,提高分類(lèi)精度,解決了現(xiàn)在新聞文本分類(lèi)忽視標(biāo)題重要性,導(dǎo)致分類(lèi)效率低的問(wèn)題。
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于圖網(wǎng)絡(luò)的標(biāo)題和正文結(jié)合的文本分類(lèi)方法,屬于自然語(yǔ)言處理領(lǐng)域。
背景技術(shù)
文本分類(lèi)是自然語(yǔ)言處理的一個(gè)基本問(wèn)題。現(xiàn)如今,統(tǒng)計(jì)學(xué)習(xí)方法已經(jīng)成為了文本分類(lèi)領(lǐng)域的主流。基于傳統(tǒng)機(jī)器學(xué)習(xí)的文本分類(lèi)方法主要是是對(duì)文本進(jìn)行預(yù)處理、特征提取,然后將處理后的文本向量化,最后通過(guò)常見(jiàn)的機(jī)器學(xué)習(xí)分類(lèi)算法來(lái)對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行建模,主要包括樸素貝葉斯模型,k最近鄰算法,期望最大化算法,支持向量機(jī)器(SVM)模型。然而,特征工程的難度被認(rèn)為是對(duì)傳統(tǒng)文本分類(lèi)的挑戰(zhàn)。
如今,深度學(xué)習(xí)方法和人工智能的不斷發(fā)展,在文本分類(lèi)領(lǐng)域中取得了許多可喜的成果。不同于傳統(tǒng)的中文文本分類(lèi)學(xué)習(xí)方法,深度學(xué)習(xí)方法采用神經(jīng)網(wǎng)絡(luò)模型對(duì)單詞嵌入進(jìn)行訓(xùn)練。例如,卷積神經(jīng)網(wǎng)絡(luò)(CNN),周期性神經(jīng)網(wǎng)絡(luò)(RNN),以及長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)。這些深度學(xué)習(xí)模型能夠很好的自動(dòng)學(xué)習(xí)文本特征,提高分類(lèi)效率,受到廣大研究人員歡迎。
近年來(lái),一個(gè)新的研究方向圖神經(jīng)網(wǎng)絡(luò)引起廣泛關(guān)注,圖神經(jīng)網(wǎng)絡(luò)針對(duì)具有豐富關(guān)系結(jié)構(gòu)的任務(wù)很有效,并且能夠在圖嵌入中保存圖的全局結(jié)構(gòu)信息。本發(fā)明利用圖網(wǎng)絡(luò)解決文本分類(lèi)中忽視了標(biāo)題在文本分類(lèi)的重要性的問(wèn)題,提高文本分類(lèi)效率。
發(fā)明內(nèi)容
本發(fā)明提供一種基于圖網(wǎng)絡(luò)的標(biāo)題和正文結(jié)合的文本分類(lèi)方法,利用圖網(wǎng)絡(luò)來(lái)融合標(biāo)題和正文特征,解決在目前文本分類(lèi)任務(wù)中忽視標(biāo)題在文本分類(lèi)的重要性,導(dǎo)致文本分類(lèi)精度低的問(wèn)題。
本發(fā)明提出的一種基于圖網(wǎng)絡(luò)的標(biāo)題和正文結(jié)合的文本分類(lèi)方法,包括以下步驟:
1)收集中文新聞文本數(shù)據(jù)集,所述的數(shù)據(jù)集包含文檔和所屬類(lèi)別;并建立停用詞表,
2)對(duì)所述的數(shù)據(jù)集進(jìn)行處理,將其中的文檔均劃分為標(biāo)題文檔和正文文檔;
3)將步驟2)劃分出的正文文檔進(jìn)行數(shù)據(jù)預(yù)處理,包括分句、分詞、去停用詞,并構(gòu)建正文詞集合;
4)利用詞向量訓(xùn)練模型對(duì)步驟3)構(gòu)建的正文詞集合進(jìn)行訓(xùn)練,得到正文詞集合中每一個(gè)詞的分布式表示;
5)將步驟2)劃分出的正文文檔劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集;
6)將步驟5)劃分出的訓(xùn)練集輸入HAN(Hierarchical Attention Networks)模型進(jìn)行訓(xùn)練,然后利用步驟5)劃分出的測(cè)試集檢測(cè)該HAN模型,并優(yōu)化該HAN模型,獲取每個(gè)正文文檔向量;
7)將步驟2)劃分出的標(biāo)題文檔,進(jìn)行分詞,構(gòu)建標(biāo)題詞集合,并利用詞向量訓(xùn)練模型對(duì)標(biāo)題詞集合進(jìn)行訓(xùn)練,得到標(biāo)題詞集合中每個(gè)詞的分布式表示;
8)利用LDA主題模型對(duì)所述的數(shù)據(jù)集中文檔進(jìn)行訓(xùn)練,得出N個(gè)主題和每個(gè)主題的主題詞分布,并根據(jù)主題詞分布得出每個(gè)主題向量;
9)以步驟2)劃分出的標(biāo)題文檔、步驟7)中構(gòu)建的標(biāo)題詞集合和步驟8)獲取的主題為節(jié)點(diǎn),根據(jù)節(jié)點(diǎn)之間的關(guān)系構(gòu)建異質(zhì)圖;
10)將步驟2)劃分出來(lái)的標(biāo)題文檔劃分為訓(xùn)練集、驗(yàn)證集、測(cè)試集;
11)用步驟6)獲得的每個(gè)正文文檔向量來(lái)表示步驟10)所述的訓(xùn)練集中每個(gè)標(biāo)題文檔向量;
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于天津大學(xué),未經(jīng)天津大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011233244.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置
- 基于人工智能的文章標(biāo)題生成方法、裝置、設(shè)備及介質(zhì)
- 一種相同新聞信息的歸類(lèi)方法及系統(tǒng)
- 一種新聞主副標(biāo)題檢測(cè)方法及裝置
- 標(biāo)題識(shí)別方法及裝置
- 用于真產(chǎn)品詞識(shí)別的系統(tǒng)、方法和計(jì)算機(jī)可讀介質(zhì)
- 一種文檔系統(tǒng)的側(cè)邊欄展示方法及系統(tǒng)
- 一種文檔標(biāo)題層級(jí)的分析方法、裝置及服務(wù)器
- 一種文章標(biāo)題優(yōu)化方法、系統(tǒng)、介質(zhì)及設(shè)備
- 一種文本標(biāo)注方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 數(shù)據(jù)標(biāo)識(shí)方法、裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)及電子設(shè)備
- 滾動(dòng)顯示控制
- 郵件數(shù)據(jù)下載的實(shí)現(xiàn)方法、客戶端、服務(wù)器及系統(tǒng)
- 移動(dòng)終端的郵件正文的顯示方法及裝置
- 網(wǎng)頁(yè)正文抽取方法及裝置
- word文檔的模塊化方法及系統(tǒng)
- 一種版式文檔正文碎片化的方法
- 標(biāo)題正文相關(guān)度的確定方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于正文節(jié)點(diǎn)特征的提取網(wǎng)頁(yè)正文的方法和系統(tǒng)
- 一種根據(jù)新建模板生成審批正文的方法及系統(tǒng)
- 網(wǎng)頁(yè)正文提取方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)





