[發明專利]文本處理方法、裝置及存儲介質有效
| 申請號: | 201911032610.9 | 申請日: | 2019-10-28 |
| 公開(公告)號: | CN110750987B | 公開(公告)日: | 2021-02-05 |
| 發明(設計)人: | 李快 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F16/35 |
| 代理公司: | 北京派特恩知識產權代理有限公司 11270 | 代理人: | 劉暉銘;張穎玲 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 處理 方法 裝置 存儲 介質 | ||
本申請實施例提供了一種文本處理方法、裝置及存儲介質,其中,方法包括:獲取待處理文本和所述待處理文本的標簽;根據所述標簽,分別對所述待處理文本的第一部分和第二部分進行特征提取,對應得到第一詞向量和第二詞向量;確定所述第一詞向量和所述第二詞向量之間的距離;根據所述距離,確定所述第一部分與所述第二部分之間的匹配度。通過本申請,能夠準確的提取到所輸入的待處理文本對應的特征數據,從而對待處理文本進行準確的匹配或分類。
技術領域
本申請實施例涉及人工智能技術領域,涉及但不限于一種文本處理方法、裝置及存儲介質。
背景技術
對于持續更新并呈現給用戶內容的信息流(feed流)的分類和匹配處理,需要首先獲取到feed流文件中的詞向量特征,進行文本語義分析,并基于語義分析結果得到匹配結果,以實現對feed流的分類。
目前,常用的文本語義分析方法主要包括:通過詞袋模型進行文本語義分析、通過卷積神經網絡(CNN,Convolutional Neural Networks)或循環神經網絡(RNN,RecurrentNeural Network)對輸入的文本進行文本語義分析、通過雙向transformer編碼器(BERT,Bidirectional Encoder Representations from Transformers)進行文本語義分析。
但是,相關技術中的上述文本語義分析方法均不能準確的提取到所輸入文本對應的特征數據,因此也就不能對文本進行準確的匹配和分類。
發明內容
本申請實施例提供一種文本處理方法、裝置及存儲介質,能夠準確的提取到所輸入的待處理文本對應的特征數據,從而對待處理文本進行準確的匹配或分類。
本申請實施例的技術方案是這樣實現的:
本申請實施例提供一種文本處理方法,包括:
獲取待處理文本和所述待處理文本的標簽;
根據所述標簽,分別對所述待處理文本的第一部分和第二部分進行特征提取,對應得到第一詞向量和第二詞向量;
確定所述第一詞向量和所述第二詞向量之間的距離;
根據所述距離,確定所述第一部分與所述第二部分之間的匹配度。
本申請實施例提供一種文本處理方法,包括:
獲取待處理文本和所述待處理文本的標簽;
根據所述標簽,分別對所述待處理文本的第一部分和第二部分進行特征提取,對應得到第一詞向量和第二詞向量;
確定所述第一詞向量對應的第一標簽和所述第二詞向量對應的第二標簽;
根據所述第一標簽和所述第二標簽,對所述待處理文本進行分類,得到所述待處理文本的分類結果。
本申請實施例提供一種文本處理裝置,包括:
第一獲取模塊,用于獲取待處理文本和所述待處理文本的標簽;
第一特征提取模塊,用于根據所述標簽,分別對所述待處理文本的第一部分和第二部分進行特征提取,對應得到第一詞向量和第二詞向量;
第一確定模塊,用于確定所述第一詞向量和所述第二詞向量之間的距離;
第二確定模塊,用于根據所述距離,確定所述第一部分與所述第二部分之間的匹配度。
本申請實施例提供一種文本處理裝置,包括:
第二獲取模塊,用于獲取待處理文本和所述待處理文本的標簽;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911032610.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于最小信息熵的神經網絡分詞系統及訓練方法
- 下一篇:基于人工智能的起名方法





