[發(fā)明專利]一種在長文本中識別復雜住址的方法有效
| 申請?zhí)枺?/td> | 201811266619.1 | 申請日: | 2018-10-29 |
| 公開(公告)號: | CN109299469B | 公開(公告)日: | 2023-05-02 |
| 發(fā)明(設計)人: | 韓偉力;賈昊陽;盛毅敏;王曉陽 | 申請(專利權)人: | 復旦大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/242 |
| 代理公司: | 上海正旦專利代理有限公司 31200 | 代理人: | 陸飛;陸尤 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 識別 復雜 住址 方法 | ||
1.一種在長文本中識別復雜住址的方法,其特征在于,具體步驟如下:
步驟一、構建小區(qū)名詞典
收集國內所有縣級市及以上級別地區(qū)的小區(qū)名及對應地址;采用雙數(shù)組Trie樹構建小區(qū)名詞典;
步驟二、中文分詞與詞性標注
采用感知機構造中文分詞和詞性標注模型,對輸入的長文本進行基本處理,其中分詞和詞性標注的準確性來源于訓練語料庫的大小,使用的語料庫大小為1億字;
步驟三、構建詞網(wǎng)
構建粗分詞網(wǎng),用于記錄識別過程中的所有中間結果,初始構建時其中包含基礎的分詞和詞性標注結果,通過后續(xù)的字典匹配和實體識別等步驟,更新詞網(wǎng)中的內容,從而成為具有更詳細信息的細分詞網(wǎng);
步驟四、規(guī)則匹配
利用基于雙數(shù)組Trie樹的AC匹配算法,在已完成分詞與詞性標注的長文本中匹配小區(qū)名,并根據(jù)其結果來匹配規(guī)則列表中最長的地址格式,將匹配到的最長字符串標記為復雜住址,更新詞網(wǎng)信息,得到細分詞網(wǎng);匹配的規(guī)則來源于對互聯(lián)網(wǎng)公開數(shù)據(jù)集的處理與統(tǒng)計,分為如下子步驟:
(1)在互聯(lián)網(wǎng)公開的微博數(shù)據(jù)中,采用正則匹配方法粗略獲取3萬條疑似地址文本,采用人工篩選的方法獲取有效地址數(shù)據(jù)6000條;
(2)采用感知機模型對地址進行分詞和詞性標注,然后,基于小區(qū)名詞典對匹配到的小區(qū)名進行標注的替換;
(3)統(tǒng)計所有精確到門戶的地址格式,即詞性標注的組合模式,共計約200條,作為用于匹配長文本中地址的規(guī)則列表;規(guī)則列表的內容根據(jù)具體情況進行添加或刪減操作,以滿足不同環(huán)境下對地址準確度和召回率的要求;
步驟五、維特比求最優(yōu)路徑
利用更新后的細分詞網(wǎng),經(jīng)過一次維特比算法求解,得到一條最優(yōu)路徑,即長文本的最優(yōu)分詞和識別結果,其中包含復雜住址標簽的就是最終的疑似住址;
步驟六、上下文分析
對疑似住址的上下文進行文本分析,通過匹配正面和負面特征詞的方法,最終判斷提取的字符串是否為真正的隱私住址信息;流程為:
采用固定大小的窗口對地址的上下文進行特征詞提取;當上下文中包含“住在”、“家”、“居住”這些正面特征詞時,疑似住址有很大概率為真實隱私信息;當上下文中包含“工作”、“公司”、“咨詢”這些詞時,則疑似住址有很大概率并非真正的隱私信息;對其是否是隱私的判斷主要基于對現(xiàn)有包含隱私地址數(shù)據(jù)集的檢測和對關鍵詞的統(tǒng)計。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學,未經(jīng)復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811266619.1/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





