[發明專利]文本匹配方法、裝置、計算機系統及可讀存儲介質有效
| 申請號: | 201910703715.6 | 申請日: | 2019-07-31 |
| 公開(公告)號: | CN112395856B | 公開(公告)日: | 2022-09-13 |
| 發明(設計)人: | 葛鑫;施楊斌;趙宇;駱衛華 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/284;G06F40/289;G06F40/58 |
| 代理公司: | 北京智信四方知識產權代理有限公司 11519 | 代理人: | 呂雁葭;宋海龍 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 匹配 方法 裝置 計算機系統 可讀 存儲 介質 | ||
1.一種文本匹配方法,其特征在于,包括:
獲取第一文本和第二文本的數據,所述第一文本包括第一增量文本和第一存量文本,所述第二文本包括第二增量文本和第二存量文本;
通過處理所述第一文本和第二文本的數據,確定所述第一文本與所述第二文本中的n連詞的重合程度,其中,所述n連詞包含n個連續詞,n≥1;
至少根據所述第一文本與所述第二文本中的n連詞的重合程度,確定所述第一文本和所述第二文本是否為潛在匹配文本對;
其中,所述確定所述第一文本與所述第二文本中的n連詞的重合程度,包括:
根據同時出現在所述第一增量文本和所述第二增量文本中的n連詞個數,以及同時出現在所述第一存量文本和所述第二增量文本中的n連詞個數,確定所述第一文本與所述第二文本中的n連詞的重合程度;或
根據同時出現在所述第一增量文本和所述第二存量文本中的n連詞個數,以及同時出現在所述第一存量文本和所述第二存量文本中的n連詞個數,確定所述第一文本與所述第二文本中的n連詞的重合程度;
所述根據所述第一文本與所述第二文本中的n連詞的重合程度,確定所述第一文本和所述第二文本是否為潛在匹配文本對,包括:當所述第一文本與第二文本中的n連詞的重合程度達到或超過預設的重合程度閾值時,確定第一文本和第二文本是潛在匹配文本對。
2.根據權利要求1所述的方法,其特征在于:
所述n連詞至少包括N1連詞N2連詞,其中,N1≠N2。
3.根據權利要求1所述的方法,其特征在于:
所述第一文本是從第一語言的第一原始文本轉換得到的;和/或
所述第二文本是從第二語言的第二原始文本轉換得到的;和/或
所述第一語言和所述第二語言是不同的語言;和/或
所述第一文本和所述第二文本是所述第二語言的文本。
4.根據權利要求3所述的方法,其特征在于:
對所述第一原始文本的轉換包括對所述第一原始文本進行以下至少一種處理:分詞、以詞粒度從所述第一語言翻譯為所述第二語言、去停用詞;和/或
對所述第二原始文本的轉換包括對所述第二原始文本進行以下至少一種處理:分詞、去停用詞。
5.根據權利要求3所述的方法,其特征在于:
所述第一原始文本是所述第一語言的當前原始文本集合中相比于所述第一語言的存量原始文本而言的增量原始文本,所述第二原始文本是所述第二語言的當前原始文本集合中的增量原始文本或存量原始文本;或者
所述第一原始文本是所述第一語言的當前原始文本集合中的增量原始文本或存量原始文本,所述第二原始文本是所述第二語言的當前原始文本集合中相比于所述第二語言的存量原始文本而言的增量原始文本。
6.根據權利要求5所述的方法,其特征在于,所述至少根據所述第一文本與所述第二文本中的n連詞的重合程度,確定所述第一文本和所述第二文本是否為潛在匹配文本對,包括:
當所述第一原始文本是存量原始文本時,至少根據所述第一文本與所述第二文本中的n連詞的重合程度,以及所述第一文本與從所述第二語言的存量原始文本轉換得到的文本的n連詞的重合程度,確定所述第一文本和所述第二文本是否為潛在匹配文本對;和/或
當所述第二原始文本是存量原始文本時,至少根據所述第一文本與所述第二文本中的n連詞的重合程度,以及所述第二文本與從所述第一語言的存量原始文本轉換得到的文本的n連詞的重合程度,確定所述第一文本和所述第二文本是否為潛在匹配文本對。
7.根據權利要求3所述的方法,其特征在于:
所述第一原始文本是從第一網頁獲得的;
所述第二原始文本是從第二網頁獲得的;
所述第一網頁是所述第一語言的當前網頁集合中相比于所述第一語言的存量網頁而言的增量網頁,所述第二網頁是所述第二語言的當前網頁集合中的增量網頁或存量網頁;或者
所述第一網頁是所述第一語言的當前網頁集合中的增量網頁或存量網頁,所述第二網頁是所述第二語言的當前網頁集合中相比于所述第二語言的存量網頁而言的增量網頁。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910703715.6/1.html,轉載請聲明來源鉆瓜專利網。





