[發明專利]一種基于指定位置遺忘的T-BiLSTM和CRF的地址要素識別方法在審
| 申請號: | 202210578633.5 | 申請日: | 2022-05-25 |
| 公開(公告)號: | CN114880999A | 公開(公告)日: | 2022-08-09 |
| 發明(設計)人: | 樊坤;高楊;陳偉;許俊杰;楊運平 | 申請(專利權)人: | 浙江邦盛科技股份有限公司 |
| 主分類號: | G06F40/169 | 分類號: | G06F40/169;G06F40/284;G06F16/951;G06N3/04;G06N3/08 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 劉靜 |
| 地址: | 310012 浙江省杭州市西湖*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 指定 位置 遺忘 bilstm crf 地址 要素 識別 方法 | ||
本發明公開了一種基于指定位置遺忘的T?BiLSTM和CRF的地址要素識別方法,本方法構建了一種基于BiLSTM的指定時間步遺忘的神經網絡,該神經網絡本方法命名為T?BiLSTM,該方法首先將地址文本編碼轉化為基于字信息的向量矩陣;然后將地址向量分別輸入到BiLSTM的地址分詞網絡中進行分詞;得到分詞向量后將其與地址向量結合輸入到T?BiLSTM神經網絡中;最后利用條件隨機場CRF對基于T?BiLSTM神經網絡的結果進行標注,得到地址的各級別地址要素。與傳統基于BiLSTM?CRF的地址要素方法相比,該方法將分詞與標注任務分離開,識別要素時引入分詞遺忘信息,對新詞識別具有更好的準確性和魯棒性。
技術領域
本發明涉及自然語言處理中的中文分詞領域,尤其涉及一種基于指定位置遺忘的T-BiLS TM和CRF的地址要素識別方法。
背景技術
隨著快遞、電商行業的發展,存在海量的地址信息,真實地址驗證與地址匹配越來越重要,而地址要素識別任務是地址驗證與地址匹配的重要組成部分,它對地址驗證與地址匹配能否成功起著決定性的作用。傳統的地址要素識別一般采用基于規則的地址要素識別方法,該方法只能在規范序列上取得一定的效果,而且編寫規則繁多。近期基于機器學習的方法去避免了編寫繁多的規則,但是提取語義信息有限?;谏疃葘W習的方法,由于真正地址序列存在大量省市區開頭地址序列,模型會學習到這種分布,導致出現在后面位置的省市區無法分出,并且該方法在長序列上會遇到將多個地址要素合起來的問題。
針對地址要素識別存在的以上不足,提出一種基于指定位置遺忘的T-BiLSTM和CRF的地址要素識別方法。該方法模型會結合分詞信息在指定分詞位置進行信息遺忘,將長序列分割成為短序列從而解決上述深度學習方法遇到的問題。
發明內容
本發明的目的在于針對現有技術的不足,提出一種基于指定位置遺忘的T-BiLSTM和CRF的地址要素識別方法。
本發明的目的是通過以下技術方案來實現的:一種基于指定位置遺忘的T-BiLSTM和CRF的地址要素識別方法,包括以下步驟:
步驟1、利用爬蟲對網絡上的地址文本進行爬取得到初始地址數據集,對獲取的初始地址數據集進行數據預處理,對預處理后的地址數據集進行人工地址要素分詞標注,得到分詞標注后的地址要素數據,對地址字符進行統計去重得到字符集,并對地址要素數據根據字符集將其轉化為地址字符id集合;
步驟2、將步驟1得到的字符集隨機初始化為特征向量,根據特征向量將步驟1得到的地址字符id集合轉化為地址特征向量矩陣;
步驟3、將步驟2得到的地址特征向量矩陣輸入到BiLSTM模型中,得到語義特征矩陣;
步驟4、將步驟3得到的語義特征矩陣輸入到Dense全連接層中,得到序列分詞信息;
步驟5、將步驟2得到的地址特征向量矩陣與步驟4得到的序列分詞信息輸入到T-BiLSTM中,得到要素特征矩陣,并將其通過全連接神經網絡轉化為得分序列矩陣;
步驟6、將步驟5得到的得分序列矩陣輸入到條件隨機場CRF中,得到中文地址要素標注結果。
進一步地,所述步驟1包括:
(1)利用爬蟲對網絡上的地址文本進行爬取得到初始地址數據集;
(2)對初始數據集去除除了中文字符、字母、數字以外的所有字符,所有字母A-Z轉小寫a-z;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江邦盛科技股份有限公司,未經浙江邦盛科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210578633.5/2.html,轉載請聲明來源鉆瓜專利網。





