[發明專利]文本處理方法、裝置、計算機可讀存儲介質及電子設備有效
| 申請號: | 202010775440.X | 申請日: | 2020-08-05 |
| 公開(公告)號: | CN111737476B | 公開(公告)日: | 2020-11-20 |
| 發明(設計)人: | 張倩汶;閆昭;饒孟良;曹云波 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06N3/04;G06N20/00 |
| 代理公司: | 深圳市隆天聯鼎知識產權代理有限公司 44232 | 代理人: | 葉虹 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 處理 方法 裝置 計算機 可讀 存儲 介質 電子設備 | ||
1.一種文本處理方法,其特征在于,包括:
獲取待處理文本,并將所述待處理文本輸入至多標簽分類模型中,所述多標簽分類模型基于不平衡文本樣本集和不平衡衰減損失函數訓練得到,所述不平衡文本樣本集為標簽正樣本的數量和標簽負樣本的數量不均衡的文本樣本集;所述不平衡衰減損失函數根據標簽樣本預測值和多標簽樣本確定,其中,所述多標簽樣本為所述不平衡文本樣本集中各文本樣本對應的多標簽樣本,所述標簽樣本預測值為利用所述多標簽分類模型獲取的所述文本樣本對應的標簽樣本預測值,所述不平衡衰減損失函數包括第一損失部、第二損失部和召回損失;
通過所述多標簽分類模型對所述待處理文本進行屬性抽取,以獲取與所述待處理文本對應的標簽;
根據所述標簽從所述待處理文本中獲取對應的實體,并根據所述標簽和所述實體構建三元組,以根據所述三元組更新知識圖譜。
2.根據權利要求1所述的文本處理方法,其特征在于,所述多標簽分類模型包括特征生成子模型和分類子模型;
所述通過所述多標簽分類模型對所述待處理文本進行屬性抽取,以獲取與所述待處理文本對應的標簽,包括:
將所述待處理文本輸入至所述特征生成子模型進行向量化處理和詞性拼接處理,以獲取與所述待處理文本對應的特征向量;
將所述特征向量輸入至所述分類子模型進行特征提取,以獲取標簽預測概率值;
根據第一預設概率閾值和所述標簽預測概率值確定與所述待處理文本對應的標簽。
3.根據權利要求2所述的文本處理方法,其特征在于,所述特征生成子模型包括字向量化網絡層、詞性編碼層和拼接層;
所述將所述待處理文本輸入至所述特征生成子模型進行向量化處理和詞性拼接處理,以獲取與所述待處理文本對應的特征向量,包括:
通過所述字向量化網絡層將所述待處理文本中的各個文字轉換為字向量;
通過所述詞性編碼層對所述待處理文本進行分詞,并對獲取的各個分詞的詞性進行編碼,以獲取詞性編碼信息;
通過所述拼接層對各所述文字對應的字向量和詞性編碼信息進行拼接,以獲取與各所述文字對應的特征子向量;
根據所述待處理文本中所有文字對應的特征子向量確定與所述待處理文本對應的特征向量。
4.根據權利要求3所述的文本處理方法,其特征在于,各所述文字對應的詞性編碼信息為與各所述文字的詞性標注對應的獨熱編碼,其中各所述文字的詞性標注包括頭位置編碼和后續位置編碼。
5.根據權利要求2所述的文本處理方法,其特征在于,所述分類子模型包括第一高速公路網絡層、第二高速公路網絡層和基于卷積神經網絡的特征強化子模型;
所述將所述特征向量輸入至所述分類子模型進行特征提取,以獲取標簽預測概率值,包括:
通過所述第一高速公路網絡層和所述第二高速公路網絡層依次對所述特征向量進行信息回流處理,以獲取目標特征信息;
通過所述基于卷積神經網絡的特征強化子模型對所述目標特征信息進行特征提取,以獲取所述標簽預測概率值。
6.根據權利要求1所述的文本處理方法,其特征在于,所述方法還包括:
獲取所述不平衡文本樣本集以及與所述不平衡文本樣本集中各文本樣本對應的多標簽樣本;
根據所述不平衡文本樣本集和所述多標簽樣本對待訓練多標簽分類模型進行訓練,以獲取所述多標簽分類模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010775440.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種新型卷繞輥
- 下一篇:一種用于位移單向控制的豎向滑動裝置





