[發明專利]識別地址的方法和裝置在審
| 申請號: | 202110325543.0 | 申請日: | 2021-03-26 |
| 公開(公告)號: | CN113076752A | 公開(公告)日: | 2021-07-06 |
| 發明(設計)人: | 周雪;張少華;李娜;趙錫成;孟琳琳 | 申請(專利權)人: | 中國聯合網絡通信集團有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06K9/62;G06F16/29 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司 11205 | 代理人: | 朱穎;黃健 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 識別 地址 方法 裝置 | ||
本申請提供了一種識別地址的方法和裝置,可以通過基于分類模型和分詞模型的置信閾值標注體系對惡意地址進行識別,有利于提高惡意地址識別的準確率。該方法包括:將待識別地址信息輸入至分類模型,獲取第一數值,該第一數值用于表示該待識別地址信息為惡意地址的概率;若該第一數值小于或等于第一置信閾值,且該第一數值大于或等于第二置信閾值,將該待識別地址信息輸入至分詞模型,得到結構化地址信息,該分詞模型用于將該待識別地址信息進行結構化劃分,并對劃分后的該待識別地址信息進行標注;基于該結構化地址信息,對該待識別地址信息進行識別。
技術領域
本申請涉及人工智能領域,更具體地,涉及一種識別地址的方法和裝置。
背景技術
惡意地址源于黑色產業鏈冒充正常客戶對運營商產品進行惡意訂購的行為。惡意地址可以為不存在的虛假地址、行政區劃分錯亂的干擾地址以及無地址意義的垃圾地址等。惡意地址占用終端用戶的網絡資源,擾亂正常的信息技術(internet technology,IT)流程,使得IT系統的功能產生錯誤和偏差,無法對惡意地址進行解析和分詞處理,因此需要在惡意地址進入正常IT流程之前將其識別并進行屏蔽。
目前,可以采用模板匹配的方法對惡意地址進行識別,該方法可以基于待識別地址信生成目標地址,并判斷至少一個惡意地址模板中是否存在與該目標地址對應的惡意地址模板。
然而,由于惡意地址的隨意性較強,采用上述方法進行惡意地址識別的準確率不高。
發明內容
本申請提供一種識別地址的方法和裝置,可以通過基于分類模型和分詞模型的置信閾值標注體系對惡意地址進行識別,有利于提高惡意地址識別的準確率。
第一方面,提供了一種識別地址的方法,包括:將待識別地址信息輸入至分類模型,獲取第一數值,該第一數值用于表示該待識別地址信息為惡意地址的概率,該分類模型包括位置嵌入層、分段嵌入層和詞嵌入層,該位置嵌入層用于表示該待識別地址信息中詞語的位置關系,該分段嵌入層用于區分該待識別地址信息中不同的語句,該詞嵌入層用于將該待識別地址信息向量化;若該第一數值小于或等于第一置信閾值,且該第一數值大于或等于第二置信閾值,將該待識別地址信息輸入至分詞模型,得到結構化地址信息,該分詞模型用于將該待識別地址信息進行結構化劃分,并對劃分后的該待識別地址信息進行標注;基于該結構化地址信息,對該待識別地址信息進行識別。
應理解,上述第一置信閾值大于或等于第二置信閾值。
本申請實施例采用分類模型結合第一置信閾值和第二置信閾值對待識別地址信息進行初步分類,并基于模型得分,即第一數值進一步采用分詞模型對該待識別地址信息進行識別。由于分類模型可以保留相對完整意義上的待識別地址的語義信息,且分詞模型可以完整實現對待識別地址信息的劃分和標注,最大限度地保留了地理位置相關的完整實體信息,因此,有利于提高識別地址的準確率。
結合第一方面,在第一方面的某些實現方式中,基于該結構化地址信息,對該待識別地址信息進行識別,包括:基于該結構化地址信息,確定第一地址信息;將該第一地址信息與地址庫中的地址信息進行匹配,以對該待識別地址信息進行識別。
結合第一方面,在第一方面的某些實現方式中,該地址庫包括第一地址庫,將該第一地址信息與地址庫中的地址信息進行匹配,以對該待識別地址信息進行識別,包括:若該第一地址信息與該第一地址庫中的地址信息匹配成功,確定該待識別地址信息為正常地址。
結合第一方面,在第一方面的某些實現方式中,該地址庫還包括第二地址庫,將該第一地址信息與地址庫中的地址信息進行匹配,以對該待識別地址信息進行識別,包括:若該第一地址信息與該第一地址庫中的地址信息匹配失敗,獲取該第一地址信息中的多個關鍵詞;將該多個關鍵詞與該第二地址庫中的地址信息進行匹配,得到第二數值;基于該第二數值,對該待識別地址信息進行識別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國聯合網絡通信集團有限公司,未經中國聯合網絡通信集團有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110325543.0/2.html,轉載請聲明來源鉆瓜專利網。





