[發明專利]基于文本相似度的信息匹配系統在審
| 申請號: | 202011306415.3 | 申請日: | 2020-11-19 |
| 公開(公告)號: | CN112287657A | 公開(公告)日: | 2021-01-29 |
| 發明(設計)人: | 陳津來;袁凱;尹雅露;葉新江;方毅;段永康;常越峰 | 申請(專利權)人: | 每日互動股份有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/279;G06F40/242;G06F16/27 |
| 代理公司: | 北京鍾維聯合知識產權代理有限公司 11579 | 代理人: | 丁慧玲 |
| 地址: | 310012 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 文本 相似 信息 匹配 系統 | ||
1.一種基于文本相似度的信息匹配系統,其特征在于,包括第一數據庫和第二數據庫,處理器和存儲有計算機程序的存儲器,所述第一數據庫用于存儲第一文本信息以及所述第一文本信息對應的第一地址信息,所述第二數據庫用于存儲第二文本信息以及所述第二文本信息對應的第二地址信息,當所述計算機程序被處理器執行時,實現以下步驟:
步驟S1、從所述第一數據庫中獲取第一文本信息C,以及與所述第一文本信息對應的第一地址信息D;
步驟S2、從所述第二數據庫中獲取以D為中心的預設距離范圍內的所有的第二地址信息所對應的第二文本信息列表E=(E1,E2...EN),En為所述第二文本信息列表中的第n個第二文本信息,n=1,2,...N,N為正整數;
步驟S3、基于所述第一文本信息C構建基準詞庫,并根據所述基準詞庫確定X類詞庫,X為正整數;
步驟S4、基于所述基準詞庫以及X類詞庫構建特征詞庫,所述特征詞庫中包括多個特征詞文本信息,即F=(F1,F2...FM),Fm表示所述特征詞庫的第m個特征詞文本信息,m=1,2,...M;
步驟S5、逐個獲取每一所述特征詞文本信息Fm與En的文本相似度Hmn,并與預設的相似度閾值H0進行比較,若Hmn≥H0,則將該第二文本信息En與所述第一文本信息C相關聯。
2.根據權利要求1所述的系統,其特征在于,
所述步驟S3進一步包括:
步驟S31、將所述第一文本信息C進行分詞處理,得到多個分詞文本,將每一所述分詞文本與預設的第一詞庫進行匹配,若所述第一詞庫中包含與該分詞文本相同的文本信息,則將該分詞文本剔除,將剩余的分詞文本基于在所述第一文本信息C中的順序重新組成基準詞存儲至基準詞庫中,構建所述基準詞庫;
步驟S32、將所述基準詞與預設的第x詞庫進行匹配,x=2,3,...X+1,將所述基礎詞中包含在所述第x詞庫中的文本切除,將所述基礎詞剩余的文本信息存儲至第x-1類詞庫中,構建所述第x-1類詞庫。
3.根據權利要求2所述的系統,其特征在于,
所述第一詞庫基于預設的通用詞詞典構建,所述第x詞庫基于預設的專業詞典構建。
4.根據權利要求2所述的系統,其特征在于,
所述步驟S4進一步包括:
步驟S41、將所述基準詞以及所有第x-1類詞庫中的文本信息的原始文本信息分別根據預設的轉譯規則進行轉譯,得到所述基準詞以及所有第x-1類詞庫中的文本信息對應的轉譯文本信息;
步驟S42、將所述基準詞以及所有第x-1類詞庫中的文本信息對應的轉譯文本信息,以及所述基準詞以及所有第x-1類詞庫中的文本信息的原始文本信息共同組成所述特征詞庫。
5.根據權利要求4所述的系統,其特征在于,
所述步驟S41中,所述預設的轉譯規則為:
將所述基準詞以及所有第x-1類詞庫中的文本信息對應的原始文本信息轉換為對應的漢語拼音信息,得到第一轉譯文本信息,以及,將所述原始文本信息中每一漢語漢字轉換為該漢語漢字對應的拼音信息的首字母,得到第二轉譯文本信息,所述第一轉譯文本信息和所述第二轉譯文本信息共同組成所述轉譯文本信息。
6.根據權利要求1所述的系統,其特征在于,
所述步驟S5中,獲取每一所述特征詞文本信息Fm與En的文本相似度Hmn:
其中,a為Fm的字符串,i表示a的第i位,b為En的字符串,j表示b的第j位,ai為Fm的字符串的第i個字符,bj為En的字符串的第j個字符。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于每日互動股份有限公司,未經每日互動股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011306415.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種N-二氟甲基氮雜吲哚類化合物及其合成方法
- 下一篇:扶梯運行狀態檢測裝置
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





