[發明專利]一種用于專利數據中申請人公司名稱消歧的方法在審
| 申請號: | 202110245682.2 | 申請日: | 2021-03-05 |
| 公開(公告)號: | CN112926328A | 公開(公告)日: | 2021-06-08 |
| 發明(設計)人: | 孫笑明;熊旺;王雅蘭;馬浩智 | 申請(專利權)人: | 西安循數信息科技有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06K9/62;G06F40/157 |
| 代理公司: | 西安銘澤知識產權代理事務所(普通合伙) 61223 | 代理人: | 張舉 |
| 地址: | 710065 陜西省西安市雁塔*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 專利 數據 申請人 公司名稱 方法 | ||
1.一種用于專利數據中申請人公司名稱消歧的方法,其特征在于,包括以下步驟:
步驟1、導入或選擇專利數據;根據導入或者選擇的專利數據,拆分申請人數據的申請人名稱,將申請人名稱數據用分隔符號進行切割,獲取申請人公司名集合;
步驟2、將所獲取的申請人公司名集合進行遍歷,去除公司名中的地名、附加前綴與后綴,將去除的地名、附加前綴與后綴數據保留在數據庫中的字典表中,根據實際要求進行調整;
步驟3、按照公司專利數量進行倒序排序,根據排序結果對步驟2處理后的公司名集合使用萊文斯坦距離比較字符串對的相似程度,以排序在前的公司名作為標準比較字符串遍歷比較后續公司名集合;
步驟4、將字符串比較結果進行整理,根據已知數據集對參數閾值進行調整,計算出能夠篩選出有母子公司關系的公司集合的閾值;通過這種方式重復計算同時結合專家經驗調整閾值,得到最終的閾值,依照閾值提取相似程度大于閾值的公司名對組成集合進行保存;
步驟5、用戶比對計算結果,判斷計算結果是否符合其需求;如果符合,則提取專利數據中涉及到該公司名集合的數據并替換其數據中申請人公司名,如果不符合,則不進行替換。
2.根據權利要求1所述的用于專利數據中申請人公司名稱消歧的方法,其特征在于,所述步驟3使用萊文斯坦距離比較字符串對的相似程度具體操作為:
以排序在前的公司名作為標準比較字符串遍歷比較后續公司名集合,將字符串A變成B、或者將B變成A,通過插入或者刪除一個字符所需要做的最少次數變換,因此其相似比例可以計算為:
(比較的字符串長度之和-萊文斯坦距離)/比較的字符串長度之和=0.8;相似程度在閾值以上的公司名加入相似公司名集合同時在公司名集合中去除該公司名;如此迭代執行,直至計算完所有公司名。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安循數信息科技有限公司,未經西安循數信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110245682.2/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





