[發明專利]公司名稱的匹配方法、裝置、計算機設備及存儲介質有效
| 申請號: | 202110248504.5 | 申請日: | 2021-03-08 |
| 公開(公告)號: | CN112597284B | 公開(公告)日: | 2021-06-15 |
| 發明(設計)人: | 黃文輝;廖志軍;黃詠毫;萬賜華;馮璐茜 | 申請(專利權)人: | 中郵消費金融有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/335 |
| 代理公司: | 廣州微斗專利代理有限公司 44390 | 代理人: | 唐立平 |
| 地址: | 511458 廣東省廣州市南沙區海*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 公司名稱 匹配 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種公司名稱的匹配方法,其特征在于,包括如下步驟:
S1:接收用戶提交的公司名稱;
S2:對公司名稱進行分詞,并根據分詞結構計算詞的頻次和詞的權重;
S3:以公司名稱為點,相同詞為邊,構建點邊關系;
S4:有相同的邊關系的兩個公司名稱,計算萊文斯坦距離相似度,并根據詞權重計算兩個公司名稱的余弦距離相似度;
S5:過濾掉低于閾值的邊,量化出公司名稱的相似度;
S6:根據過濾后的邊數據,計算連通圖,將數據進行劃分,找出相似或者相同的公司名稱;
以公司名稱為點,相同詞為邊,構建點邊關系包括:
對海量的公司名稱,根據公司名稱有相同的詞,則將他們建立邊關系,構邊計算;
構邊時,將相同詞的公司名稱分為一個數據集,將數據集中數據量大于閾值的詞進行分級膨脹;
分級膨脹的核心算法思想如下:
對于全量數據 m,分n塊,每塊大小是m/n條,最終得到m*(m-1)/2條;
1.第一級膨脹的條數膨脹n倍: 1--- n ;
2.第一級膨脹計算后的數據重分區;
3.第二級膨脹的條數膨脹m/n倍: n--- m;
4.第二級膨脹計算后的數據重分區;
5.第三級膨脹的條數最高膨脹m倍,最低膨脹1倍,呈y=x的分布,平均(m-1)/2倍: m--- m*(m-1)/2。
2.如權利要求1所述的公司名稱的匹配方法,其特征在于,對公司名稱進行分詞,并根據分詞結構計算詞的頻次和詞的權重包括:
1)分詞:公司名稱使用jieba分詞,如果有行政區,要補充公司名稱中的行政區;將全量公司名稱分詞后,形成公司名稱的分詞庫;
2)計算詞的頻次:根據分詞結果,統計每個分詞在全量公司名稱中出現的頻率,對于出現頻次大于設定閾值的詞作為無意義詞;
3)計算詞的權重:根據所有的公司名稱切出來的詞,計算TF-IDF。
3.如權利要求2所述的公司名稱的匹配方法,其特征在于,根據TF-IDF=TF*IDF公式,得出公司名稱的分詞計算公司:
TF=該分詞i在公司名稱j的出現頻次/公司名稱j的分詞數量。
4.如權利要求1所述的公司名稱的匹配方法,其特征在于,所述分級膨脹的步驟包括:
1)分塊輸出:將數據集m平分n塊,并將每塊數據集和原來數據集組合成一條記錄并輸出,即每塊大小是m/n條,并根據分布式計算特點,將輸出結果數據進行重分區;
2)將輸出結果再次進行重分區,將數據庫再次盡可能平均分配;
3)將單條數據按數組遍歷輸出,得到構邊結果。
5.如權利要求1所述的公司名稱的匹配方法,其特征在于,還包括以下步驟:
S7:以每個連通圖為一個獨立整體,重新計算連通圖內的詞權重,再次計算余弦相似度;
S8:據步驟S7計算的余弦相似度,再次過濾掉低于閾值的邊;
S9: 根據步驟S8過濾后的邊關系,再次計算連通圖,找出相似或者相同的公司名稱。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中郵消費金融有限公司,未經中郵消費金融有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110248504.5/1.html,轉載請聲明來源鉆瓜專利網。





