[發明專利]一種文本匹配方法及裝置有效
| 申請號: | 201711431699.7 | 申請日: | 2017-12-26 |
| 公開(公告)號: | CN108182222B | 公開(公告)日: | 2020-12-01 |
| 發明(設計)人: | 董超;崔朝輝;趙立軍;張霞 | 申請(專利權)人: | 東軟集團股份有限公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 張小娜;王寶筠 |
| 地址: | 110179 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 匹配 方法 裝置 | ||
1.一種文本匹配方法,其特征在于,包括:
獲取待匹配的第一文本和第二文本;
將所述第一文本進行分詞處理,得到各個第一分詞;
將所述第二文本進行分詞處理,得到各個第二分詞;
繪制特征矩陣,所述特征矩陣的行數為第一分詞的總數,所述特征矩陣的列數為第二分詞的總數;
按照各個第一分詞在所述第一文本中的順序,將各個第一分詞依次對應于所述特征矩陣的每一行;
按照各個第二分詞在所述第二文本中的順序,將各個第二分詞依次對應于所述特征矩陣的每一列;
確定所述特征矩陣中每一元素位置對應的特征值,所述特征值表征了所述元素位置對應的第一分詞與第二分詞之間的相似度;
若所述特征值的大小與所述相似度的程度正相關,則當所述特征值大于第一特征閾值時,保留所述特征值;
若所述特征值的大小與所述相似度的程度反相關,則當所述特征值小于第二特征閾值時,保留所述特征值,所述第二特征閾值小于所述第一特征閾值;
將被保留的每一特征值定義為保留特征值,根據各個保留特征值之間的線性相關性,確定所述第一文本與所述第二文本之間的匹配度;
所述根據各個保留特征值之間的線性相關性,確定所述第一文本與所述第二文本之間的匹配度,包括:
將各個保留特征值分別轉換成二維坐標系中的一個坐標點,使各個坐標點在所述二維坐標系中的分布位置與各個保留特征值在所述特征矩陣中的分布位置相同;
在所述二維坐標系中生成一條特征直線,使各個坐標點到所述特征直線的距離之和最小;
計算每一坐標點到所述特征直線的距離值;
根據計算得到的各個距離值,確定所述第一文本與所述第二文本之間的匹配度。
2.根據權利要求1所述的方法,其特征在于,所述根據計算得到的各個距離值,確定所述第一文本與所述第二文本之間的匹配度,包括:
統計小于預設距離閾值的距離值,并確定統計出的距離值的第一總數;
根據計算得到的各個距離值以及所述第一總數,確定所述第一文本與所述第二文本之間的匹配度。
3.根據權利要求2所述的方法,其特征在于,所述根據計算得到的各個距離值以及所述第一總數,確定所述第一文本與所述第二文本之間的匹配度,包括:
根據計算得到的各個距離值以及最大總數,確定所述第一文本與所述第二文本之間的匹配度;
其中,所述最大總數為所述第一總數、第二總數以及第三總數中的最大值,所述第二總數為所述第一分詞的總數,所述第三總數為所述第二分詞的總數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東軟集團股份有限公司,未經東軟集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711431699.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數據處理的方法以及相關設備
- 下一篇:一種管理分層圖片夾文件的系統





