[發明專利]基于圖網絡的標題和正文結合的文本分類方法有效
| 申請號: | 202011233244.6 | 申請日: | 2020-11-06 |
| 公開(公告)號: | CN112347255B | 公開(公告)日: | 2021-11-23 |
| 發明(設計)人: | 謝宗霞;袁春宇 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 李麗萍 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 網絡 標題 正文 結合 文本 分類 方法 | ||
1.一種基于圖網絡的標題和正文結合的文本分類方法,其特征在于,包括以下步驟:
步驟1)收集中文新聞文本數據集,所述的數據集包含文檔和所屬類別;并建立停用詞表,
步驟2)對所述的數據集進行處理,將其中的文檔均劃分為標題文檔和正文文檔;
步驟3)將步驟2)劃分出的正文文檔進行數據預處理,包括分句、分詞、去停用詞,并構建正文詞集合;
步驟4)利用詞向量訓練模型對步驟3)構建的正文詞集合進行訓練,得到正文詞集合中每一個詞的分布式表示;
步驟5)將步驟2)劃分出的正文文檔劃分為訓練集、驗證集和測試集;
步驟6)將步驟5)劃分出的訓練集輸入HAN(Hierarchical Attention Networks)模型進行訓練,然后利用步驟5)劃分出的測試集檢測該HAN模型,并優化該HAN模型,獲取每個正文文檔向量;
步驟7)將步驟2)劃分出的標題文檔,進行分詞,構建標題詞集合,并利用詞向量訓練模型對標題詞集合進行訓練,得到標題詞集合中每個詞的分布式表示;
步驟8)利用LDA主題模型對所述的數據集中文檔進行訓練,得出N個主題和每個主題的主題詞分布,并根據主題詞分布得出每個主題向量;
步驟9)以步驟2)劃分出的標題文檔、步驟7)中構建的標題詞集合和步驟8)獲取的主題為節點,根據節點之間的關系構建異質圖;
步驟10)將步驟2)劃分出來的標題文檔劃分為訓練集、驗證集、測試集;
步驟11)用步驟6)獲得的每個正文文檔向量來表示步驟10)所述的訓練集中每個標題文檔向量;
步驟12)利用步驟9)構建的異質圖、步驟11)所述的標題文檔向量、步驟7)的詞向量和步驟8)的主題向量訓練GAT(Graph Attention Networks)模型,并利用步驟10)劃分出的測試集檢測該GAT模型,實現標題和正文特征融合,得到整篇文檔特征表示,并將文檔特征表示輸入到softmax函數,該softmax函數的輸出即為文檔類別。
2.根據權利要求1所述的基于圖網絡的標題和正文結合的文本分類方法,其特征在于,步驟1)中,所述停用詞表中包括標點符號,數學符號,連接詞,感嘆詞,語氣詞。
3.根據權利要求1所述的基于圖網絡的標題和正文結合的文本分類方法,其特征在于,步驟3)的具體步驟如下:
3-1)將每個正文文檔以500字進行截取;
3-2)以每句20字對正文文檔進行分句,分句后的順序與正文文本中的順序一致;
3-3)對每一分句利用jieba分詞工具進行分詞,并依據停用詞表去除其中的停用詞;
3-4)建立正文詞集合。
4.根據權利要求1所述的基于圖網絡的標題和正文結合的文本分類方法,其特征在于,步驟4)中,利用Word2vec中skip-gram模型對正文詞集合進行訓練,設定維度為300維。
5.根據權利要求1所述的基于圖網絡的標題和正文結合的文本分類方法,其特征在于,步驟5)中將正文文檔劃分為訓練集、驗證集和測試集和步驟10)將標題文檔劃分為訓練集、驗證集、測試集,其中,訓練集、驗證集和測試集的劃分比例均為8:1:1。
6.根據權利要求1所述的基于圖網絡的標題和正文結合的文本分類方法,其特征在于,步驟7)中,利用jieba分詞工具進行分詞,所述詞向量模型為Word2vec中skip-gram模型。
7.根據權利要求1所述的基于圖網絡的標題和正文結合的文本分類方法,其特征在于,步驟8)中,N的數值根據LDA主題模型的困惑度設定。
8.根據權利要求1所述的基于圖網絡的標題和正文結合的文本分類方法,其特征在于,步驟9)中,三類節點之間的關系如式(1)所示:
9.根據權利要求1所述的基于圖網絡的標題和正文結合的文本分類方法,其特征在于,步驟12)中,每篇文檔特征表示使用如式(2)所示的softmax函數輸出文檔類別,
Z=softmax(H(L)) (2)
其中Z為文檔類別,H(L)為文檔特征表示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011233244.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種點云-多視圖融合的三維模型識別方法
- 下一篇:一種圖像分類方法和裝置





