[發明專利]一種文本分類方法及智能設備在審
| 申請號: | 202210080130.5 | 申請日: | 2022-01-24 |
| 公開(公告)號: | CN114491034A | 公開(公告)日: | 2022-05-13 |
| 發明(設計)人: | 車進 | 申請(專利權)人: | 聚好看科技股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/205;G06F40/284 |
| 代理公司: | 北京弘權知識產權代理有限公司 11363 | 代理人: | 郭放;許偉群 |
| 地址: | 266061 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 分類 方法 智能 設備 | ||
本申請提供一種文本分類方法及智能設備,所述方法可以在獲取超長的待分類文本后,先計算支撐詞得分,再對待分類文本進行切分以獲得多個文本片段。通過分別計算每個文本片段的第一得分和第二得分,得到每個文本片段的綜合得分,從而根據綜合得分對待分類文本進行重新切分,以獲得短文本數據,最后將短文本數據輸入自然語言處理模型進行文本分類。所述方法可以通過零次學習和支撐詞得分兩種方式計算獲得文本片段的綜合得分,確定文本片段的重要程度,以保證性能的同時盡可能保留模型效果,減少語義損失。
技術領域
本申請涉及自然語言處理技術領域,尤其涉及一種文本分類方法及智能設備。
背景技術
文本分類是計算機等數據處理設備對文本集按照一定的分類體系或標準自動分類標記的數據處理方式。文本分類可以基于深度學習神經網絡技術,在已經被標注的訓練樣本數據中找到文本特征和文本類別之間的關系模型,再利用學習得到的關系模型對新的文本進行類別判斷,實現對自然語言文本的語義理解。
數據處理設備在進行文本分類的過程中,需要先通過樣本數據對初始模型進行訓練,以獲得訓練模型,再使用訓練模型對新的文本數據進行識別,從而輸出文本數據對應各類別的分類概率。由于文本分類過程中訓練模型需要通過位置編碼等方式對文本進行處理,因此輸入訓練模型的文本數據具有長度限制。例如,參考經典BERT的自然語言訓練模型,由于原始位置編碼的設計要求,導致訓練模型最大支持512長度的文本處理,無法支持超長文本的建模。
為了處理長文本,在將長文本輸入訓練模型前,需要對文本進行切分處理。例如,可以使用硬截斷的方式將超長文本從前到后截斷,以將一個長度大于512的長文本切分成多個長度小于或等于512的指定長度短文本,然后再使用訓練模型進行建模。但是這種文本截斷方式僅適用于指定長度短文本能夠表征完整文本的語義,而實際文本數據很少能夠滿足這一特點,導致這種文本截斷方式忽略了文本的性能敏感性和可用性,造成部分語義損失。
發明內容
本申請提供了一種文本分類方法及智能設備,以解決傳統文本分類方法在處理超長文本時出現語義損失的問題。
第一方面,本申請提供一種文本分類方法,包括:
獲取待分類文本;
計算每個分類標簽對應類別的支撐詞得分,所述支撐詞得分為所述待分類文本中關鍵詞的逆向文本頻率IDF數值;所述支撐詞為所述IDF數值大于預設IDF判斷值的關鍵詞;
將所述待分類文本切分為多個文本片段;
計算每個所述文本片段的第一得分,所述第一得分為類別得分向量的信息熵;所述類別得分向量為所述文本片段對于每個類別的零次學習模型分類結果組成的向量;
計算每個所述文本片段的第二得分,所述第二得分根據所述文本片段中的所述支撐詞得分計算獲得;
計算綜合得分,所述綜合得分為所述第一得分和所述第二得分的標準化求和結果;
根據所述綜合得分重新切分所述待分類文本,以及將重新切分結果輸入自然語言處理模型。
第二方面,本申請還提供一種智能設備,包括:存儲模塊和處理模塊。其中,存儲模塊被配置為存儲自然語言處理模型和零次學習模型;處理模塊被配置為執行以下程序步驟:
獲取待分類文本;
計算每個分類標簽對應類別的支撐詞得分,所述支撐詞得分為所述待分類文本中關鍵詞的逆向文本頻率IDF數值;所述支撐詞為所述IDF數值大于預設IDF判斷值的關鍵詞;
將所述待分類文本切分為多個文本片段;
計算每個所述文本片段的第一得分,所述第一得分為類別得分向量的信息熵;所述類別得分向量為所述文本片段對于每個類別的零次學習模型分類結果組成的向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于聚好看科技股份有限公司,未經聚好看科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210080130.5/2.html,轉載請聲明來源鉆瓜專利網。





