[發明專利]文本匹配方法和裝置在審
| 申請號: | 201510850337.6 | 申請日: | 2015-11-27 |
| 公開(公告)號: | CN106815226A | 公開(公告)日: | 2017-06-09 |
| 發明(設計)人: | 祝嘯風;闕育飛 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京博浩百睿知識產權代理有限責任公司11134 | 代理人: | 宋子良 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 匹配 方法 裝置 | ||
1.一種文本匹配方法,其特征在于,包括:
獲取多個待處理文本中各個待處理文本的至少兩條詞語屬性信息,其中,所述多個待處理文本至少包括待匹配文本和文本庫中的多個預存文本,每條所述詞語屬性信息用于記錄待處理文本所包含的一個詞語與所述待處理文本的索引關系;
從所述多個預存文本的詞語屬性信息中,提取與所述待匹配文本的詞語屬性信息對應的詞語屬性信息;
基于提取到的詞語屬性信息中記錄的索引關系,確定所述多個預存文本中與所述待匹配文本匹配的匹配文本。
2.根據權利要求1所述的方法,其特征在于,基于提取到的詞語屬性信息中記錄的索引關系,確定所述多個預存文本中與所述待匹配文本匹配的匹配文本包括:
基于提取到的詞語屬性信息中記錄的索引關系,統計各個預存文本的詞語屬性信息數量;
若預存文本的詞語屬性信息數量達到預設閾值,則確定該預存文本為所述待匹配文本的候選匹配文本;
將確定的多個候選匹配文本,分別與所述待匹配文本進行余弦匹配操作,得到所述多個預存文本中與所述待匹配文本匹配的匹配文本。
3.根據權利要求2所述的方法,其特征在于,基于提取到的詞語屬性信息中記錄的索引關系,統計各個預存文本的詞語屬性信息數量包括:
從所述提取到的詞語屬性信息中記錄的索引關系中,獲取文本標識,其中,同樣的文本標識用于表示同樣的預存文本,所述索引關系用于記錄所述一個詞語的屬性信息與預存文本的文本標識的對應關系;
統計各個所述文本標識的數量,將所述文本標識的數量作為所述文本標識所表示的預存文本的詞語屬性信息數量。
4.根據權利要求1至3中任意一項所述的方法,其特征在于,獲取多個待處理文本中各個待處理文本的至少兩條詞語屬性信息包括:
對所述待處理文本進行分詞操作,得到所述待處理文本的多個詞語;
計算所述待處理文本所包含的各個所述詞語的哈希值;
從獲取的哈希值中,提取N個哈希值,其中,N為大于等于2的自然數;
保存提取的各個所述哈希值與所述待處理文本的文本標識的索引關系,生成所述待處理文本的N條所述詞語屬性信息。
5.根據權利要求4所述的方法,其特征在于,從獲取的哈希值中,提取N個哈希值包括:
從獲取的哈希值中,提取前N個數值小的哈希值;或
從獲取的哈希值中,提取數值小于預設數值的N個哈希值;或
確定所述N個哈希值的哈希序列,其中,哈希序列中的哈希值按照數值從小到大排列;從所述哈希序列中提取排序在前N位的哈希值。
6.根據權利要求4所述的方法,其特征在于,從所述多個預存文本的詞語屬性信息中,提取與所述待匹配文本的詞語屬性信息對應的詞語屬性信息包括:
從所述多個預存文本的詞語屬性信息中,提取哈希值數值與所述待匹配文本的任一條詞語屬性信息中哈希值數值相同的詞語屬性信息。
7.一種文本匹配裝置,其特征在于,包括:
獲取單元,用于獲取多個待處理文本中各個待處理文本至少兩條詞語屬性信息,其中,所述多個待處理文本至少包括待匹配文本和文本庫中的多個預存文本,每條所述詞語屬性信息用于記錄待處理文本所包含的一個詞語與所述待處理文本的索引關系;
提取單元,用于從所述多個預存文本的詞語屬性信息中,提取與所述待匹配文本的詞語屬性信息對應的詞語屬性信息;
匹配單元,用于基于提取到的詞語屬性信息中記錄的索引關系,確定所述多個預存文本中與所述待匹配文本匹配的匹配文本。
8.根據權利要求7所述的裝置,其特征在于,所述匹配單元包括:
統計模塊,用于基于提取到的詞語屬性信息中記錄的索引關系,統計各個預存文本的詞語屬性信息數量;
確定模塊,用于若預存文本的詞語屬性信息數量達到預設閾值,則確定該預存文本為所述待匹配文本的候選匹配文本;
匹配模塊,用于將確定的多個候選匹配文本,分別與所述待匹配文本進行余弦匹配操作,得到所述多個預存文本中與所述待匹配文本匹配的匹配文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510850337.6/1.html,轉載請聲明來源鉆瓜專利網。





