[發明專利]文本處理方法、裝置、計算機可讀存儲介質及電子設備有效
| 申請號: | 202010775440.X | 申請日: | 2020-08-05 |
| 公開(公告)號: | CN111737476B | 公開(公告)日: | 2020-11-20 |
| 發明(設計)人: | 張倩汶;閆昭;饒孟良;曹云波 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06N3/04;G06N20/00 |
| 代理公司: | 深圳市隆天聯鼎知識產權代理有限公司 44232 | 代理人: | 葉虹 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 處理 方法 裝置 計算機 可讀 存儲 介質 電子設備 | ||
本公開提供了一種文本處理方法、裝置、計算機存儲介質和電子設備,涉及人工智能領域。方法包括:獲取待處理文本,并將所述待處理文本輸入至多標簽分類模型中,所述多標簽分類模型基于不平衡文本樣本集和不平衡衰減損失函數訓練得到,所述不平衡文本樣本集為標簽正樣本的數量和標簽負樣本的數量不均衡的文本樣本集,所述不平衡衰減損失函數包括第一損失部、第二損失部和召回損失;通過所述多標簽分類模型對所述待處理文本進行屬性抽取,以獲取與所述待處理文本對應的標簽;根據所述標簽從所述待處理文本中獲取對應的實體,并根據所述標簽和所述實體構建三元組,以根據所述三元組更新知識圖譜。本公開可以提高文本標簽的準召率,降低成本。
技術領域
本公開涉及人工智能技術領域,具體而言,涉及一種文本處理方法、文本處理裝置、計算機可讀存儲介質及電子設備。
背景技術
隨著科學技術和人工智能的迅速發展,文本分類成為一個重要方面,對于文本而言,其所對應的標簽不止一個,還可能有多個,如一篇介紹某個人物的文章,很可能對該人物的生平、家庭關系、社會貢獻等方面進行描述,因此它應該至少包含父親、母親、出生地、居所等標簽。由此可見,多標簽分類可以提供更加豐富的分類信息,為后續可能的應用,如文本分類管理、監控、過濾等等,提供更大的幫助。
目前文本的多標簽自動標注都是通過分類模型實現的,在訓練分類模型時都是通過將樣本(文本、圖像或音頻)轉化為特征向量后進行多標簽分類學習的,但是現有方法依賴完備的訓練數據集,需要昂貴的人力標注作為支持,極大地限制了領域的擴展和項目的迭代速度,另外現有方法對數據的不平衡問題沒有進行優化,導致訓練得到的分類模型在對文本進行多標簽分類時精準度較差。
需要說明的是,在上述背景技術部分公開的信息僅用于加強對本公開的背景的理解,因此可以包括不構成對本領域普通技術人員已知的現有技術的信息。
發明內容
本公開的實施例提供了一種文本處理方法和文本處理裝置,進而至少在一定程度上可以提高文本多標簽分類的效率和精準度,降低成本。
本公開的其他特性和優點將通過下面的詳細描述變得顯然,或部分地通過本公開的實踐而習得。
根據本公開實施例的一個方面,提供了一種文本處理方法,包括:獲取待處理文本,并將所述待處理文本輸入至多標簽分類模型中,所述多標簽分類模型基于不平衡文本樣本集和不平衡衰減損失函數訓練得到,所述不平衡文本樣本集為標簽正樣本的數量和標簽負樣本的數量不均衡的文本樣本集,所述不平衡衰減損失函數包括第一損失部、第二損失部和召回損失;通過所述多標簽分類模型對所述待處理文本進行屬性抽取,以獲取與所述待處理文本對應的標簽;根據所述標簽從所述待處理文本中獲取對應的實體,并根據所述標簽和所述實體構建三元組,以根據所述三元組更新知識圖譜。
根據本公開實施例的一個方面,提供了一種文本處理裝置,包括:文本獲取模塊,用于獲取待處理文本,并將所述待處理文本輸入至多標簽分類模型中,所述多標簽分類模型基于不平衡文本樣本集和不平衡衰減損失函數訓練得到,所述不平衡文本樣本集為標簽正樣本的數量和標簽負樣本的數量不均衡的文本樣本集,所述不平衡衰減損失函數包括第一損失部、第二損失部和召回損失;屬性抽取模塊,用于通過所述多標簽分類模型對所述待處理文本進行屬性抽取,以獲取與所述待處理文本對應的標簽;知識構建模塊,用于根據所述標簽從所述待處理文本中獲取對應的實體,并根據所述標簽和所述實體構建三元組,以根據所述三元組更新知識圖譜。
在本公開的一些實施例中,所述多標簽分類模型包括特征生成子模型和分類子模型;基于前述方案,所述屬性抽取模塊包括:特征生成單元,用于將所述待處理文本輸入至所述特征生成子模型進行向量化處理和詞性拼接處理,以獲取與所述待處理文本對應的特征向量;特征提取單元,用于將所述特征向量輸入至所述分類子模型進行特征提取,以獲取標簽預測概率值;標簽確定單元,用于根據第一預設概率閾值和所述標簽預測概率值確定與所述待處理文本對應的標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010775440.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種新型卷繞輥
- 下一篇:一種用于位移單向控制的豎向滑動裝置





