[發明專利]一種文本分類方法及系統在審
| 申請號: | 202011078194.9 | 申請日: | 2020-10-10 |
| 公開(公告)號: | CN112269874A | 公開(公告)日: | 2021-01-26 |
| 發明(設計)人: | 唐恒亮;米源;薛菲;曹陽 | 申請(專利權)人: | 北京物資學院 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/284;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京卓嵐智財知識產權代理事務所(特殊普通合伙) 11624 | 代理人: | 郭智 |
| 地址: | 101149 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 分類 方法 系統 | ||
本發明實施例提供一種文本分類方法及系統,其步驟包括:獲取待分類文本;向量化所述待分類文本;通過雙向長短期記憶網絡層提取深層次特征;根據待分類文本的詞匯依存關系及深層次特征構建文本鄰接矩陣;通過由圖卷積網絡構成的隱藏層,進一步提取隱藏層特征;結合注意力機制,得到詞匯在文本分類時的貢獻率向量;進一步根據貢獻率向量,得到文本分類向量;將文本分類向量經全連接層及歸一化,得到文本分類結果。本發明通過在傳統圖卷積網絡模型基礎上引入雙向長短期記憶網絡、詞性信息和詞匯間的依存關系,構建文本分類網絡模型,解決傳統圖卷積網絡模型的上下文依賴問題和詞匯多義性問題,從而明顯提高圖卷積網絡在文本分類上的分類效果。
技術領域
本發明涉及互聯網文本分類領域,尤其涉及一種文本分類方法及系統。
背景技術
文本分類是自然語言處理的研究熱點之一。社交媒體每天都會生成大量可量化和分析的非歐幾里德結構數據,例如社交網絡評論、商品評論、電子郵件記錄、面試記錄等。關于非歐幾里德結構數據的研究主要基于傳統機器學習分類方法與神經網絡方法,例如支持向量機、卷積神經網絡、循環神經網絡、雙向循環神經網絡、長短期記憶網絡、門控循環單、循環卷積神經網絡、卷積循環神經網絡等。然而,該類方法在處理基于圖結構的非歐幾里德結構數據的文本分類時,其適用性受到了極大的挑戰。例如卷積神經網絡模型在處理局部連接輸入區域的卷積操作時,卷積核大小的固定導致其卷積操作所對應的局部區域也是固定的;而對于圖結構數據,卷積神經網絡模型無法保持平移不變性,進而無法直接利用卷積神經網絡模型對數據進行高效處理。因此,為解決上述文本分類的瓶頸問題,基于傳統圖卷積網絡模型的方法逐漸得到了研究人員的關注。通過將圖結構看作一種特殊的譜圖,則卷積神經網絡模型可泛化到圖結構數據上。傳統圖卷積網絡模型通過逐層聚合鄰域節點的特征實現中心節點多層信息的抽取,并同時對節點特征信息與結構信息實現端對端學習。同時,傳統圖卷積網絡模型適用性較強,可廣泛適用于任意拓撲結構的節點與圖。
發明內容
本發明實施例提供一種文本分類方法及系統,通過在傳統圖卷積網絡模型基礎上引入雙向長短期記憶網絡、詞性信息和詞匯間的依存關系,解決了傳統圖卷積網絡模型的上下文依賴問題和詞匯多義性問題。
為實現上述目的,一方面,本發明實施例提供了一種文本分類方法,其步驟包括:
獲取待分類文本;
將所述待分類文本向量化為文本嵌入矩陣;
將所述文本嵌入矩陣輸入給雙向長短期記憶網絡層提取特征,得到文本特征矩陣;
解析所述待分類文本,得到詞匯依存關系;
根據所述詞匯依存關系及所述文本特征矩陣構建文本鄰接矩陣;
將所述文本特征矩陣及所述文本鄰接矩陣輸入到圖卷積網絡中,得到隱藏層矩陣;
將注意力機制應用于所述文本特征矩陣及所述隱藏層矩陣,得到所述待分類文本的詞匯在文本分類時的貢獻率向量;
將所述文本特征矩陣與所述貢獻率向量相乘,得到文本分類向量;
將所述文本分類向量輸入到全連接層,所述全連階層的輸出經歸一化,得到文本分類結果。
進一步地,所述文本嵌入矩陣包括:詞匯嵌入矩陣及詞性嵌入矩陣;
所述將所述待分類文本向量化為文本嵌入矩陣,包括:
將所述待分類文本向量化為所述詞匯嵌入矩陣;以及,
標注所述待分類文本中詞匯的詞性,將所述詞性向量化為所述詞性嵌入矩陣。
進一步地,所述將所述文本嵌入矩陣輸入給雙向長短期記憶網絡層提取特征,得到文本特征矩陣,具體為:
將所述詞匯嵌入矩陣輸入給雙向長短期記憶網絡層提取特征,得到詞匯特征矩陣;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京物資學院,未經北京物資學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011078194.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種多功能三維立體聚攏仿形割臺
- 下一篇:一種中藥提取純化用的取上清液設備





