[發明專利]文本匹配方法和裝置在審
| 申請號: | 201510850337.6 | 申請日: | 2015-11-27 |
| 公開(公告)號: | CN106815226A | 公開(公告)日: | 2017-06-09 |
| 發明(設計)人: | 祝嘯風;闕育飛 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京博浩百睿知識產權代理有限責任公司11134 | 代理人: | 宋子良 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 匹配 方法 裝置 | ||
技術領域
本申請涉及數據處理領域,具體而言,涉及一種文本匹配方法和裝置。
背景技術
現有技術中,可以通過哈希算法進行網頁重排和文本信息匹配。現有哈希算法中的局部敏感哈希算法實現文本信息匹配。
具體地,局部敏感哈希(local sensitive hash,即LSH)是一個將高維空間中的相似狀態或者臨近的點放入同一個桶內的hash算法,一般用于相似文本處理。而局部敏感哈希中的MinHash,用文本中的一個詞的哈希值表示該文本的狀態,在對兩個文本做匹配時,對兩個文本的狀態進行匹配,即基于兩個詞的哈希值匹配兩個文本,若兩個詞的哈希值一致,則認為該兩個文本為匹配文本。使用該種方法,在應用在長文本匹配時,篩選效率很低。因為長文本中有大量的高頻詞,很多文本相似度為10%~20%,通過該種方法可能篩選出過多的候選樣本,在項目應用中導致時間和內存上都出現問題。
上述的用文本中一個詞的哈希值表示該文本,兩個文本匹配時,用這兩個哈希值做匹配,相同即認為匹配,不相同即認為不匹配的方案,匹配結果不精確。
針對上述文本匹配的方法匹配結果不精確的問題,目前尚未提出有效的解決方案。
發明內容
本申請實施例提供了一種文本匹配方法和裝置,以至少解決文本匹配的方法匹配結果不精確的技術問題。
根據本申請實施例的一個方面,提供了一種文本匹配方法,該方法包括:獲取多個待處理文本中各個待處理文本的至少兩條詞語屬性信息,其中,多個待處理文本至少包括待匹配文本和文本庫中的多個預存文本,每條詞語屬性信息用于記錄待處理文本所包含的一個詞語與待處理文本的索引關系;從多個預存文本的詞語屬性信息中,提取與待匹配文本的詞語屬性信息對應的詞語屬性信息;基于提取到的詞語屬性信息中記錄的索引關系,確定多個預存文本中與待匹配文本匹配的匹配文本。
根據本申請實施例的另一方面,還提供了一種文本匹配裝置,該文本匹配裝置包括:獲取單元,用于獲取多個待處理文本中各個待處理文本的至少兩條詞語屬性信息,其中,多個待處理文本至少包括待匹配文本和文本庫中的多個預存文本,每條詞語屬性信息用于記錄待處理文本所包含的一個詞語與待處理文本的索引關系;提取單元,用于從多個預存文本的詞語屬性信息中,提取與待匹配文本的詞語屬性信息對應的詞語屬性信息;匹配單元,用于基于提取到的詞語屬性信息中記錄的索引關系,確定多個預存文本中與待匹配文本匹配的匹配文本。
在本申請實施例中,使用待匹配文本包含的至少兩個詞表示一個文本的特征,其中,每個詞用一個詞語屬性信息表示,在通過多個文本與待匹配文本進行匹配時,從多個文本的大量的詞語屬性信息中,分別提取與該待匹配文本的各條詞語屬性信息匹配的信息,并基于該提取到的信息確定與該待匹配文本相匹配的文本。在現有技術中每個文本的特征用一個詞的信息表示,如果該預存文本的信息與待匹配文本的信息相匹配,則認為該預存文本與待匹配文本相匹配,得到匹配條目一般為數千條,;而本申請至少用兩個詞代表一個文本的特征,在進行信息匹配時,使用至少兩條信息進行匹配,篩選精確度高了很多,得到的篩選條目從數千條降低到了數十條,解決了現有技術的文本匹配的方法匹配結果不精確的問題。
附圖說明
此處所說明的附圖用來提供對本申請的進一步理解,構成本申請的一部分,本申請的示意性實施例及其說明用于解釋本申請,并不構成對本申請的不當限定。在附圖中:
圖1是本申請實施例的一種計算機終端的示意圖;
圖2是根據本申請實施例的文本匹配方法的流程圖;
圖3是根據本申請實施例的一種可選的文本匹配方法的流程圖;
圖4是根據本申請實施例的另一種可選的文本匹配方法的流程圖;
圖5是根據本申請實施例的再一種可選的文本匹配方法的流程圖;
圖6是根據本申請實施例的文本匹配裝置的示意圖;
圖7是根據本申請實施例的一種計算機終端的結構框圖。
具體實施方式
為了使本技術領域的人員更好地理解本申請方案,下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分的實施例,而不是全部的實施例。基于本申請中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都應當屬于本申請保護的范圍。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510850337.6/2.html,轉載請聲明來源鉆瓜專利網。





