[發明專利]一種語義分類方法及裝置在審
| 申請號: | 202210412719.0 | 申請日: | 2022-04-19 |
| 公開(公告)號: | CN114722833A | 公開(公告)日: | 2022-07-08 |
| 發明(設計)人: | 馮鈴;王鑫 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F16/35 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 吳勇濤 |
| 地址: | 100084 北京市海淀區雙清路*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語義 分類 方法 裝置 | ||
本發明提供一種語義分類方法及裝置,其中方法包括:獲取待分類文本數據;將待分類文本數據輸入至語義分類模型,基于待分類文本數據的詞嵌入和依賴樹對待分類文本數據進行語義理解,并基于語義理解結果進行分類,獲得語義分類模型輸出的分類結果;語義分類模型是基于文本樣本以及文本樣本對應的類別標簽進行訓練后得到的,每個類別標簽是根據文本樣本預先確定的,并與文本樣本一一對應。本發明實施例提供的語義分類方法,通過詞嵌入實現對文本內容進行分析,并且結合依賴樹獲取待分類文本深層的語義信息,提高了語義理解的正確率,從而提高了語義分類的正確率。
技術領域
本發明涉及計算機技術領域,尤其涉及一種語義分類方法及裝置。
背景技術
伴隨著信息的爆炸式增長,人工標注數據已經變得耗時、質量低下,且受到標注人主觀意識的影響。因此,利用機器自動化地實現對數據的標注變得具有現實意義,將重復且枯燥的文本標注任務交由計算機進行處理能夠有效克服以上問題,同時所標注的數據具有一致性、高質量等特點。目前,對于豐富的語言內容,已經有方法通過建立LIWC與類別相關的單詞的字典來文本數據對應的分類,即基于字典的文本分類。
但是由于網絡等因素,越來越多的單詞的含義、使用方法和句型變化速度較快,基于字典的文本分類方法無法適應變化速度較快的語言環境。如果詞典不能持續改進,基于詞典的分類方法很難提供令人滿意的性能,從而導致語言內容分類準確率低。
發明內容
本發明提供一種語義分類方法,用以解決現有技術中語言內容分類準確率低的缺陷,提高語言內容分類的準確率。
第一方面,本發明提供一種語義分類方法,包括:
獲取待分類文本數據;
將所述待分類文本數據輸入至語義分類模型,基于所述待分類文本數據的詞嵌入和依賴樹對所述待分類文本數據進行語義理解,并基于語義理解結果進行分類,獲得所述語義分類模型輸出的分類結果;
其中,所述語義分類模型是基于文本樣本以及所述文本樣本對應的類別標簽進行訓練后得到的,每個所述類別標簽是根據所述文本樣本預先確定的,并與所述文本樣本一一對應。
可選地,所述語義分類模型包括:編碼模塊和關系模塊;
所述將所述待分類文本數據輸入至語義分類模型,基于所述待分類文本數據的詞嵌入和依賴樹對所述待分類文本數據進行語義理解,并基于語義理解結果進行分類,獲得所述語義分類模型輸出的分類結果,包括:
將所述待分類文本數據輸入至所述編碼模塊,獲得所述編碼模塊輸出的待分類向量;
將所述待分類向量輸入至所述關系模塊,獲得所述關系模塊輸出的分類結果。
可選地,所述編碼模塊包括BERT單元、依賴樹單元、構造單元、依賴圖單元和注意力單元;
所述將所述待分類文本數據輸入至所述編碼模塊,獲得所述編碼模塊輸出的待分類向量,包括:
將所述待分類文本數據輸入至所述BERT單元,獲得所述BERT單元輸出的詞嵌入向量集;
將所述待分類文本數據輸入至所述依賴樹單元,獲得所述依賴樹單元輸出的依賴樹;
將所述依賴樹和所述詞嵌入向量集輸入至所述構造單元,獲得所述構造單元輸出的依賴圖;
將所述依賴圖輸入至所述依賴圖單元,獲取所述依賴圖單元輸出的第一待分類矩陣;
將所述第一待分類矩陣輸入至所述注意力單元,獲得所述注意力單元輸出的第一待分類向量。
可選地,所述將所述依賴樹和所述詞嵌入向量集輸入至所述構造單元,獲得所述構造單元輸出的依賴圖,包括:
基于所述詞嵌入向量集確定所述依賴圖的節點;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210412719.0/2.html,轉載請聲明來源鉆瓜專利網。





