[發明專利]文本處理方法、裝置、計算機設備及存儲介質在審
| 申請號: | 202110352912.5 | 申請日: | 2021-03-31 |
| 公開(公告)號: | CN113704462A | 公開(公告)日: | 2021-11-26 |
| 發明(設計)人: | 石磊 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/194;G06F40/205;G06F40/242;G06F40/289 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 熊永強;杜維 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 處理 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種文本處理方法,其特征在于,所述方法包括:
獲取參考文本,并確定所述參考文本的詞性序列以及特征向量;
根據所述參考文本的詞性序列從文本數據庫中確定出N個待召回文本,所述N個待召回文本中的各個待召回文本對應的詞性序列與所述參考文本的詞性序列相匹配,其中,N為正整數;
確定所述N個待召回文本中的各個待召回文本的特征向量;
將得到的N個特征向量進行聚類處理,根據聚類處理結果從所述N個特征向量中確定參考特征向量集合;
根據所述參考特征向量集合以及所述參考文本的特征向量,從所述N個待召回文本中確定目標召回文本。
2.根據權利要求1所述的方法,其特征在于,所述將得到的N個特征向量進行聚類處理,根據聚類處理結果從所述N個特征向量中確定參考特征向量集合,包括:
將得到的N個特征向量進行聚類處理,得到至少一個聚類類別;
從所述至少一個聚類類別中確定目標聚類類別,根據各個目標聚類類別所包括的特征向量確定參考特征向量集合。
3.根據權利要求2所述的方法,其特征在于,所述從所述至少一個聚類類別中確定目標聚類類別,包括:
確定所述至少一個聚類類別中的各個聚類類別所包括的特征向量的數目;
按照所包括的特征向量的數目從高到低的順序對所述至少一個聚類類別進行排序,得到第一排序結果;
根據所述第一排序結果,將所述至少一個聚類類別中排在前M位的聚類類別確定為目標聚類類別,其中,M為正整數。
4.根據權利要求1-3中任一項所述的方法,其特征在于,所述根據所述參考特征向量集合以及所述參考文本的特征向量,從所述N個待召回文本中確定目標召回文本,包括:
將所述參考特征向量集合中的各個參考特征向量分別與所述參考文本的特征向量進行對比,確定各個參考特征向量與所述參考文本的特征向量之間的匹配值;
從所述參考特征向量集合中,確定與所述參考文本的特征向量之間的匹配值大于或等于設定閾值的目標特征向量;
將所述目標特征向量所對應的待召回文本確定為目標召回文本。
5.根據權利要求4所述的方法,其特征在于,所述目標特征向量為多個,所述方法還包括:
根據各個目標召回文本所對應的目標特征向量與所述參考文本的特征向量之間的匹配值,按照匹配值從大到小的順序,對所述各個目標召回文本進行排序,得到第二排序結果;
將所述第二排序結果以及所述各個目標召回文本發送給客戶端,以使得所述客戶端根據所述第二排序結果確定所述各個目標召回文本的顯示順序,并按照所述顯示順序顯示所述各個目標召回文本。
6.根據權利要求1所述的方法,其特征在于,所述確定所述N個待召回文本中的各個待召回文本的特征向量,包括:
針對所述N個待召回文本中的任一個待召回文本,對所述待召回文本進行分詞處理,得到分詞集合;
根據詞向量詞典確定所述分詞集合中各個分詞的特征向量;
將所述各個分詞的特征向量進行融合,根據融合結果確定所述待召回文本的特征向量。
7.根據權利要求1所述的方法,其特征在于,所述根據所述參考文本的詞性序列從文本數據庫中確定出N個待召回文本,包括:
確定所述參考文本的主題信息,從文本數據庫中確定出主題信息與所述參考文本的主題信息相匹配的一個或多個待選擇文本;
根據所述參考文本的詞性序列從所述一個或多個待選擇文本中確定出N個待召回文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110352912.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:視頻標簽的確定方法和裝置
- 下一篇:電動車隊充電系統和方法





