[發明專利]一種虛假地址識別方法、裝置及設備在審
申請號: | 201910362906.0 | 申請日: | 2019-04-30 |
公開(公告)號: | CN110197284A | 公開(公告)日: | 2019-09-03 |
發明(設計)人: | 鄺展豪 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
主分類號: | G06N20/00 | 分類號: | G06N20/00;G06Q30/06 |
代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 郝傳鑫;賈允 |
地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 地址識別 裝置及設備 分類模型 特征提取 特征信息 修正信息 虛假地址 語言模型 詞向量 預處理 地址對應 序列輸入 準確率 構建 輸出 分類 響應 | ||
1.一種虛假地址識別方法,其特征在于,包括:
預先構建地址識別模型,所述地址識別模型包括:語言模型和分類模型;
響應于地址識別請求,所述地址識別請求包括待識別地址的名稱,對所述待識別地址的名稱進行按字分割,生成與每個字相對應的詞向量,根據所述待識別地址中各個字的詞向量,生成所述待識別地址的詞向量序列;
將所述詞向量序列輸入到所述語言模型中進行特征提取,得到與所述待識別地址對應的特征信息,以及在特征提取過程中對所述待識別地址的修正信息;
將所述特征信息和所述修正信息輸入到所述分類模型,得到所述待識別地址的識別結果。
2.根據權利要求1所述的一種虛假地址識別方法,其特征在于,所述方法還包括構建所述語言模型的步驟,所述構建所述語言模型的步驟包括:
獲取無標簽地址語料信息,對所述地址語料信息中的每個地址的名稱進行按字分割,生成與每個字相對應的詞向量,根據所述地址中各個字的詞向量,生成所述地址的詞向量序列;
將所述地址語料信息中各地址的詞向量序列依次輸入到自編碼模型中,對所述自編碼模型進行訓練;
從訓練好的自編碼模型中抽取出編碼模塊作為所述語言模型。
3.根據權利要求2所述的一種虛假地址識別方法,其特征在于,所述將所述地址語料信息中各地址的詞向量序列依次輸入到自編碼模型中,對所述自編碼模型進行訓練包括:
獲取所述自編碼模型的待輸出地址信息,將所述待輸出地址信息以一位有效編碼的形式進行標識。
4.根據權利要求1所述的一種虛假地址識別方法,其特征在于,所述方法還包括基于所述語言模型構建所述分類模型的步驟,所述基于所述語言模型構建分類模型的步驟包括:
獲取有標簽地址樣本,生成與所述有標簽地址樣本中各地址相對應的詞向量序列,所述有標簽地址樣本包括虛假地址樣本和正常地址樣本;
將各地址的詞向量序列依次輸入所述語言模型中,生成各地址的特征信息和修正信息;
以每個地址的所述特征信息和所述修正信息作為所述分類模型的輸入,以所述地址的標簽作為所述分類模型的輸出,對所述分類模型進行訓練。
5.根據權利要求4所述的一種虛假地址識別方法,其特征在于,當基于所述語言模型構建所述分類模型時,停止更新所述語言模型的模型參數。
6.根據權利要求1所述的一種虛假地址識別方法,其特征在于,所述分類模型包括長短期記憶網絡和全連接分類層。
7.一種虛假地址識別裝置,其特征在于,包括:
識別模型構建模塊,用于預先構建地址識別模型,所述地址識別模型包括:語言模型和分類模型;
詞向量生成模塊,用于響應于地址識別請求,所述地址識別請求包括待識別地址的名稱,對所述待識別地址的名稱進行按字分割,生成與每個字相對應的詞向量,根據所述待識別地址中各個字的詞向量,生成所述待識別地址的詞向量序列;
特征提取模塊,用于將所述詞向量序列輸入到所述語言模型中進行特征提取,得到與所述待識別地址對應的特征信息,以及在特征提取過程中對所述待識別地址的修正信息;
分類識別模塊,用于將所述特征信息和所述修正信息輸入到所述分類模型,得到所述待識別地址的識別結果。
8.根據權利要求7所述的一種虛假地址識別裝置,其特征在于,所述識別模型構建模塊包括語言模型構建模塊,所述語言模型構建模塊包括:
地址語料獲取模塊,用于獲取無標簽地址語料信息,對所述地址語料信息中的每個地址的名稱進行按字分割,生成與每個字相對應的詞向量,根據所述地址中各個字的詞向量,生成所述地址的詞向量序列;
自編碼模型訓練模塊,用于將所述地址語料信息中各地址的詞向量序列依次輸入到自編碼模型中,對所述自編碼模型進行訓練;
模型抽取模塊,用于從訓練好的自編碼模型中抽取出編碼模塊作為所述語言模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910362906.0/1.html,轉載請聲明來源鉆瓜專利網。