[發明專利]一種文本對融合方法及裝置有效
| 申請號: | 201911096632.1 | 申請日: | 2019-11-11 |
| 公開(公告)號: | CN110825863B | 公開(公告)日: | 2021-05-07 |
| 發明(設計)人: | 周輝陽 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F40/284 |
| 代理公司: | 深圳翼盛智成知識產權事務所(普通合伙) 44300 | 代理人: | 彭緒坤 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 融合 方法 裝置 | ||
1.一種文本對融合方法,其特征在于,包括:
獲取待融合文本對;
對所述待融合文本對進行分詞處理,得到所述待融合文本對對應的關鍵分詞;
通過每個所述關鍵分詞從預設文本集中選取預選文本對,所述預設文本集包括至少一個文本對;
對所述預選文本對進行分詞處理,得到所述預選文本對對應的預選分詞;
基于所述預選分詞和所述關鍵分詞,從所述預選文本對中確定候選文本對;
獲取所述待融合文本對與候選文本對之間的相似度、編輯距離,并基于所述相似度和所述編輯距離,從所述候選文本對中確定至少一個目標文本對;
將所述待融合文本對、與所述預設文本集中的目標文本對進行融合,得到融合后文本集。
2.根據權利要求1所述的文本對融合方法,其特征在于,所述對所述待融合文本對進行分詞處理,得到所述待融合文本對對應的關鍵分詞,包括:
對所述待融合文本對中的文本進行分詞處理,得到候選分詞;
獲取所述候選分詞的詞性和詞頻,所述詞頻為所述候選分詞在所述預設文本集中出現的頻次;
基于所述候選分詞的詞性和詞頻,在所述候選分詞中確定關鍵分詞,得到所述待融合文本對對應的關鍵分詞。
3.根據權利要求2所述的文本對融合方法,其特征在于,所述基于所述候選分詞的詞性和詞頻,在所述候選分詞中確定關鍵分詞,包括:
當所述候選分詞的詞性為預設詞性、且所述候選分詞的詞頻小于第一預設閾值時,將所述候選分詞確定為關鍵分詞。
4.根據權利要求1所述的文本對融合方法,其特征在于,所述基于所述預選分詞和所述關鍵分詞,從所述預選文本對中確定候選文本對,包括:
獲取所述預選分詞與所述關鍵分詞的匹配分詞的數量;
基于所述匹配分詞的數量,從所述預選文本對中確定候選文本對。
5.根據權利要求 1所述的文本對融合方法,其特征在于,所述獲取所述待融合文本對與候選文本對之間的相似度,包括:
獲取待融合文本向量以及候選文本向量,所述待融合文本向量為所述待融合文本對中文本對應的向量,所述候選文本向量為所述候選文本對中文本對應的向量;
基于所述待融合文本向量與候選文本向量,計算所述待融合文本向量與候選文本向量的相似度;
基于所述相似度獲取所述待融合文本對與候選文本對之間的相似度。
6.根據權利要求1所述的文本對融合方法,其特征在于,所述將所述待融合文本對、與所述預設文本集中的目標文本對進行融合,得到融合后文本集,包括:當所述待融合文本對中的文本與所述目標文本對中的文本匹配時,將所述待融合文本對中的文本添加至所述目標文本對中的文本進行融合,得到融合后文本集。
7.根據權利要求6所述的文本對融合方法,其特征在于,還包括:當所述待融合文本對中的文本與所述目標文本對中的文本不匹配時,將所述待融合文本對中的文本添加至所述目標文本對中,得到融合后文本集。
8.根據權利要求1所述的文本對 融合方法,其特征在于,所述獲取待融合文本對之后,還包括:
對所述待融合文本對進行編碼處理,得到所述待融合文本對對應的編碼;
所述獲取所述待融合文本對與候選文本對之間的相似度、編輯距離,并基于所述相似度和所述編輯距離,從所述候選文本對中確定至少一個目標文本對,包括:獲取所述待融合文本對與候選文本對之間的相似度、編輯距離、及所述待融合文本對對應的編碼,并基于所述相似度、所述編輯距離、和所述編碼,從所述候選文本對中確定至少一個目標文本對。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911096632.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種混凝土預制件檢測裝置
- 下一篇:一種混合飼料的添加劑及其制作工藝





