[發明專利]基于文本相似度的信息匹配系統在審
| 申請號: | 202011306415.3 | 申請日: | 2020-11-19 |
| 公開(公告)號: | CN112287657A | 公開(公告)日: | 2021-01-29 |
| 發明(設計)人: | 陳津來;袁凱;尹雅露;葉新江;方毅;段永康;常越峰 | 申請(專利權)人: | 每日互動股份有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/279;G06F40/242;G06F16/27 |
| 代理公司: | 北京鍾維聯合知識產權代理有限公司 11579 | 代理人: | 丁慧玲 |
| 地址: | 310012 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 文本 相似 信息 匹配 系統 | ||
本發明涉及一種基于文本相似度的信息匹配系統,包括第一數據庫和第二數據庫,處理器和存儲有計算機程序的存儲器,所述第一數據庫用于存儲第一文本信息以及所述第一文本信息對應的第一地址信息,所述第二數據庫用于存儲第二文本信息以及所述第二文本信息對應的第二地址信息,本發明能夠基于文本相似度,快速、準確地將同一對象存儲在第一數據庫和第二數據庫中的不同數據信息匹配起來。
技術領域
本發明涉及信息處理技術領域,尤其涉及一種基于文本相似度的信息匹配系統。
背景技術
隨著大數據技術的不斷發展,多個數據中存儲有同一對象的不同數據信息,為了便于獲取同一對象的多個數據信息,很多場景下,需要將同一對象在不同數據源中的不同數據信息關聯起來。但是,由于數據量龐大,若將不同數據源中的數據直接一一對比進行匹配,匹配效率極低,且會花費大量的時間成本和人力成本。因此,如何快速準確地將同一對象在不同數據源中的不同數據信息關聯起來成為亟待解決的技術問題。
發明內容
本發明目的在于,提供一種基于文本相似度的信息匹配系統,能夠基于文本相似度,快速、準確地將同一對象在不同數據源中的不同數據信息匹配起來。
根據本發明第一方面,提供了一種基于文本相似度的信息匹配系統,其特征在于,包括第一數據庫和第二數據庫,處理器和存儲有計算機程序的存儲器,所述第一數據庫用于存儲第一文本信息以及所述第一文本信息對應的第一地址信息,所述第二數據庫用于存儲第二文本信息以及所述第二文本信息對應的第二地址信息,當所述計算機程序被處理器執行時,實現以下步驟:
步驟S1、從所述第一數據庫中獲取第一文本信息C,以及與所述第一文本信息對應的第一地址信息D;
步驟S2、從所述第二數據庫中獲取以D為中心的預設距離范圍內的所有的第二地址信息所對應的第二文本信息列表E=(E1,E2...EN),En為所述第二文本信息列表中的第n個第二文本信息,n=1,2,...N,N為正整數;
步驟S3、基于所述第一文本信息C構建基準詞庫,并根據所述基準詞庫確定X類詞庫,X為正整數;
步驟S4、基于所述基準詞庫以及X類詞庫構建特征詞庫,所述特征詞庫中包括多個特征詞文本信息,即F=(F1,F2...FM),Fm表示所述特征詞庫的第m個特征詞文本信息,m=1,2,...M;
步驟S5、逐個獲取每一所述特征詞文本信息Fm與En的文本相似度Hmn,并與預設的相似度閾值H0進行比較,若Hmn≥H0,則將該第二文本信息En與所述第一文本信息C相關聯。
本發明與現有技術相比具有明顯的優點和有益效果。借由上述技術方案,本發明提供的一種基于文本相似度的信息匹配系統可達到相當的技術進步性及實用性,并具有產業上的廣泛利用價值,其至少具有下列優點:
本發明所述系統能夠基于文本相似度,快速、準確地將同一對象在不同數據源中的不同數據信息匹配起來。
上述說明僅是本發明技術方案的概述,為了能夠更清楚了解本發明的技術手段,而可依照說明書的內容予以實施,并且為了讓本發明的上述和其他目的、特征和優點能夠更明顯易懂,以下特舉較佳實施例,并配合附圖,詳細說明如下。
附圖說明
圖1為本發明實施例提供的基于文本相似度的信息匹配系統示意圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于每日互動股份有限公司,未經每日互動股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011306415.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種N-二氟甲基氮雜吲哚類化合物及其合成方法
- 下一篇:扶梯運行狀態檢測裝置
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





