[發明專利]基于核心詞相似度判斷企業中文名稱重復的方法有效
| 申請號: | 201410149132.0 | 申請日: | 2014-04-14 |
| 公開(公告)號: | CN103885937A | 公開(公告)日: | 2014-06-25 |
| 發明(設計)人: | 劉少武;王婷 | 申請(專利權)人: | 焦點科技股份有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 南京知識律師事務所 32207 | 代理人: | 張蘇沛 |
| 地址: | 210061 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 核心 相似 判斷 企業 中文名稱 重復 方法 | ||
1.一種基于核心詞相似度判斷企業中文名稱重復的方法,包括以下步驟:
步驟一:通過ETL,把B2B電子商務平臺數據庫中的企業中文名稱,加載到企業名稱數據集市中;
步驟二:對數據集市中保存的企業中文名稱進行預處理;
步驟三:在企業名稱數據集市中,對于每個企業中文名稱,與中國地域名稱庫進行比對,去掉名稱中包含的地域特征的關鍵詞;然后在該數據集市中增加1列,用于保存去掉地域特征關鍵詞的企業中文名稱;其中,中國地域名稱庫保存了國內所有地域的名稱;
步驟四:對于B2B電子商務平臺中不斷新增的企業中文名稱,通過ETL加載到數據集市中,通過企業中文名稱核心詞提取方法來提取這些新增企業中文名稱的核心詞;
步驟五:取出每一個新增的企業中文名稱的核心詞,與企業名稱數據集市中保存的去掉地域特征關鍵詞的企業中文名稱,兩者進行匹配,在數據集市中,得到所有包含核心詞的企業中文名稱集;
步驟六:對于每一個新增的中文公司名稱,根據其包含的核心詞所對應的企業中文名稱集,從而找到對應的未去除名稱地域關鍵詞的企業中文名稱,通過增加詞語重要程度因素的文本相似度計算處理方法,計算新增企業中文名稱與對應的去除名稱地域關鍵詞的企業中文名稱的相似度;
步驟七:根據業務需求提取相似度高的名稱,幫助審核人員快速、準確判斷企業中文名稱的重復情況,對于相似度低的企業中文名稱,加入到企業名稱數據集市。
2.根據權利要求1所述的方法,其特征在于,步驟二中,所述對數據集市中保存的企業中文名稱進行預處理,具體為:
(1)對每個企業中文名稱,指針從首字開始,以2個字一組取1個詞,然后指針每次向右移動一個字,繼續以2個字一組取1個詞,該企業中文名稱取詞結束后,對下一個企業中文名稱進行取詞;如此循環處理,直到所有企業中文名稱取詞結束,從而得到一系列2個字組成的詞;
(2)對每個企業中文名稱,指針從首字開始,以3個字一組取詞,然后指針每次向右移動一個字,繼續以3個字一組取詞,該企業中文名稱取詞結束后,對下一個企業中文名稱進行取詞;如此循環處理,直到所有企業中文名稱取詞結束,從而得到一系列3個字組成的詞;
(3)通過統計方法,計算所有的分詞出現頻率的大小,把頻率高的分詞挑選出來,保存在常見詞庫中。
3.根據權利要求1所述的方法,其特征在于,步驟四中,所述企業中文名稱核心詞提取方法,具體為:
步驟1:對于B2B電子商務平臺新增的每個企業中文名稱,從常見詞庫中依次取出常見詞,從企業中文名稱的左邊開始,與常見詞進相匹配,如果匹配成功,從企業中文名稱中去掉包含的常見詞,然后重新進行步驟1;如果匹配不成功,進行步驟2;
步驟2:從這個企業中文名稱中,從右邊減少一個字,然后繼續與常見詞庫中的常見詞進行匹配,匹配不成功,繼續重復步驟2,直到企業中文名稱中最后一個字為止;
步驟3:將步驟2的最后一個字保存起來,然后從企業中文名稱去掉這個字,重新開始匹配,如果匹配不成功,進行步驟2,直到剩下最后一個字為止,把這個字與先前保存的字按先后順序連接起來,保存,然后從企業中文名稱去掉這個字,如果匹配成功,進行步驟4;
步驟4:通過以上步驟處理后,保存下來的詞作為企業中文名稱的核心詞;
步驟5:通過上述步驟,對某個企業中文名稱處理結束后,將得到步驟4保存的所有核心詞。
4.根據權利要求3所述的方法,其特征在于,對核心詞分四種情況構成最終核心詞:
●核心詞是由兩個字組成,就加上企業中文名稱右邊最近的一個匹配詞,共同組成這個企業中文名稱的最終核心詞;
●核心詞是三個或者四個字組成,就保持不變,直接作為最終核心詞;
●核心詞大于四個字,就截取前四個字作為最終核心詞;
●所獲取的核心詞為空值,就取整個企業中文名稱作為最終核心詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于焦點科技股份有限公司,未經焦點科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410149132.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:硬巖型大坡度掘進機
- 下一篇:一種用于土壓平衡盾構螺旋輸送機的驅動裝置





