[發明專利]公司名稱的匹配方法、裝置、計算機設備及存儲介質有效

申請號：	202110248504.5	申請日：	2021-03-08
公開（公告）號：	CN112597284B	公開（公告）日：	2021-06-15
發明（設計）人：	黃文輝;廖志軍;黃詠毫;萬賜華;馮璐茜	申請（專利權）人：	中郵消費金融有限公司
主分類號：	G06F16/33	分類號：	G06F16/33;G06F16/335
代理公司：	廣州微斗專利代理有限公司 44390	代理人：	唐立平
地址：	511458 廣東省廣州市南沙區海***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	公司名稱匹配方法裝置計算機設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明涉及一種公司名稱的匹配方法、裝置、計算機設備及存儲介質，該公司名稱的匹配方法包括如下步驟：S1：接收用戶提交的公司名稱；S2：對公司名稱進行分詞，并根據分詞結構計算詞的頻次和詞的權重；S3：以公司名稱為點，相同詞為邊，構建點邊關系；S4：有相同的邊關系的兩個公司名稱，計算萊文斯坦距離相似度，并根據詞權重計算兩個公司名稱的余弦距離相似度；S5：過濾掉低于閾值的邊，量化出公司名稱的相似度；S6：根據過濾后的邊數據，計算連通圖，將數據進行劃分，找出相似或者相同的公司名稱；該公司名稱的匹配方法、裝置、計算機設備及存儲介質通過構建邊關系避免兩兩計算，大量減少了計算量，提高計算效率和計算的準確性。

技術領域

本發明涉及軟件開發技術領域，特別涉及一種公司名稱的匹配方法、裝置、計算機設備及存儲介質。

背景技術

大規模數據集公司名模糊匹配,是在海量公司名數據中找出同一個公司在不同的公司名稱呼表達方式的集合。現有技術中，公開的公司名模糊匹配使用的算法為人工或者做切詞，對公司名進行標準化，兩兩比對，對降低兩兩比對次數上并沒有做優化。

目前針對大規模數據集的公司名模糊匹配算法較少，主要是兩兩比對公司名的算法較多，多模糊匹配算法在性能上頻次過高，且準確率低，導致計算大規模數據集較慢或不能計算，比對的算法比較單一,容易受某一些因素影響導致模糊匹配結果不夠準確。

因此，亟需一種效率較高、準確性較好的匹配方法。

發明內容

基于此，有必要提供一種效率較高、準確性較好的公司名稱的匹配方法、裝置、計算機設備及存儲介質。

本發明實施例一方面提供一種公司名稱的匹配方法，包括如下步驟：

S1：接收用戶提交的公司名稱；

S2：對公司名稱進行分詞，并根據分詞結構計算詞的頻次和詞的權重；

S3：以公司名稱為點，相同詞為邊，構建點邊關系；