[發明專利]公司名稱的匹配方法、裝置、計算機設備及存儲介質有效
| 申請號: | 202110248504.5 | 申請日: | 2021-03-08 |
| 公開(公告)號: | CN112597284B | 公開(公告)日: | 2021-06-15 |
| 發明(設計)人: | 黃文輝;廖志軍;黃詠毫;萬賜華;馮璐茜 | 申請(專利權)人: | 中郵消費金融有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/335 |
| 代理公司: | 廣州微斗專利代理有限公司 44390 | 代理人: | 唐立平 |
| 地址: | 511458 廣東省廣州市南沙區海*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 公司名稱 匹配 方法 裝置 計算機 設備 存儲 介質 | ||
本發明涉及一種公司名稱的匹配方法、裝置、計算機設備及存儲介質,該公司名稱的匹配方法包括如下步驟:S1:接收用戶提交的公司名稱;S2:對公司名稱進行分詞,并根據分詞結構計算詞的頻次和詞的權重;S3:以公司名稱為點,相同詞為邊,構建點邊關系;S4:有相同的邊關系的兩個公司名稱,計算萊文斯坦距離相似度,并根據詞權重計算兩個公司名稱的余弦距離相似度;S5:過濾掉低于閾值的邊,量化出公司名稱的相似度;S6:根據過濾后的邊數據,計算連通圖,將數據進行劃分,找出相似或者相同的公司名稱;該公司名稱的匹配方法、裝置、計算機設備及存儲介質通過構建邊關系避免兩兩計算,大量減少了計算量,提高計算效率和計算的準確性。
技術領域
本發明涉及軟件開發技術領域,特別涉及一種公司名稱的匹配方法、裝置、計算機設備及存儲介質。
背景技術
大規模數據集公司名模糊匹配,是在海量公司名數據中找出同一個公司在不同的公司名稱呼表達方式的集合。現有技術中,公開的公司名模糊匹配使用的算法為人工或者做切詞,對公司名進行標準化,兩兩比對,對降低兩兩比對次數上并沒有做優化。
目前針對大規模數據集的公司名模糊匹配算法較少,主要是兩兩比對公司名的算法較多,多模糊匹配算法在性能上頻次過高,且準確率低,導致計算大規模數據集較慢或不能計算,比對的算法比較單一,容易受某一些因素影響導致模糊匹配結果不夠準確。
因此,亟需一種效率較高、準確性較好的匹配方法。
發明內容
基于此,有必要提供一種效率較高、準確性較好的公司名稱的匹配方法、裝置、計算機設備及存儲介質。
本發明實施例一方面提供一種公司名稱的匹配方法,包括如下步驟:
S1:接收用戶提交的公司名稱;
S2:對公司名稱進行分詞,并根據分詞結構計算詞的頻次和詞的權重;
S3:以公司名稱為點,相同詞為邊,構建點邊關系;
S4:有相同的邊關系的兩個公司名稱,計算萊文斯坦距離相似度,并根據詞權重計算兩個公司名稱的余弦距離相似度;
S5:過濾掉低于閾值的邊,量化出公司名稱的相似度;
S6:根據過濾后的邊數據,計算連通圖,將數據進行劃分,找出相似或者相同的公司名稱。
優選地,對公司名稱進行分詞,并根據分詞結構計算詞的頻次和詞的權重包括:
1)分詞:公司名稱使用jieba分詞,如果有行政區,要補充公司名稱中的行政區;將全量公司名稱分詞后,形成公司名稱的分詞庫;
2)計算詞的頻次:根據分詞結果,統計每個分詞在全量公司名稱中出現的頻率,對于出現頻次大于設定閾值的詞作為無意義詞;
3)計算詞的權重:根據所有的公司名稱切出來的詞, 計算TF-IDF。
優選地,根據TF-IDF=TF*IDF公式,得出公司名稱的分詞計算公司:
TF=該分詞i在公司名稱j的出現頻次/公司名稱j的分詞數量。
優選地,以公司名稱為點,相同詞為邊,構建點邊關系包括:
對海量的公司名稱,根據公司名稱有相同的詞,則將他們建立邊關系,構邊計算;
構邊時,將相同詞的公司名稱分為一個數據集,將數據集中數據量大于閾值的詞進行分級膨脹。
優選地,所述分級膨脹的步驟包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中郵消費金融有限公司,未經中郵消費金融有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110248504.5/2.html,轉載請聲明來源鉆瓜專利網。





