[發明專利]一種自然語言地址描述的自動識別方法在審
| 申請號: | 201810247442.4 | 申請日: | 2018-03-23 |
| 公開(公告)號: | CN108563631A | 公開(公告)日: | 2018-09-21 |
| 發明(設計)人: | 李俊;顏平;徐忠建;朱必亮;馮建亮 | 申請(專利權)人: | 江蘇速度信息科技股份有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 南京正聯知識產權代理有限公司 32243 | 代理人: | 陸中丹 |
| 地址: | 210000 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 匹配識別 自然語言 輸出結果 自動識別 分詞 自然語言處理 狀態機模型 詞性標注 方法識別 句法結構 模式識別 社會大眾 語言模式 加載 句法 語句 句子 引擎 詞語 檢索 出行 節約 語言 | ||
本發明涉及一種自然語言地址描述的自動識別方法,包括以下步驟:(1)開始檢索識別,加載自然語言處理引擎,獲取自然語言地址描述的句子或詞語,句法或詞的語言模式提取;然后對提取的語言模進行匹配識別,看是否有模式可以匹配識別該地址描述;(2)如有能匹配識別該地址描述的模式,則進行模式識別,并輸出結果;(3)如果沒有能匹配識別該地址描述的模式則通過建立切詞分圖來識別;建立切圖分詞,根據有限狀態機模型,識別句法結構,進行地址描述的識別,并輸出結果;該方法識別率高,識別速度快;對于單句,以及復雜句的識別非常精確;能夠完成地址描述語句的自動分詞和詞性標注,方便用戶找到具體地點,節約了社會大眾的出行時間。
技術領域
本發明涉及自然語言地址描述的識別技術領域和有限狀態機技術領域、構造切詞分圖技術,尤其涉及一種自然語言地址的自動識別方法。
背景技術
自然語言是人們進行通信和交流的主要工具,在互聯網與大數據時代,存在海量易獲取的中文自然語言地址描述數據。它們體現了公眾描述空間位置的語言和認知習慣,蘊含著豐富的空間信息。利用文本挖掘技術,自動識別自然語言地址描述中的詞語、句法及語義信息,從而提煉出現頻率較高的地名和常用的描述模式,對于城市地標的選取、意象地圖的構建和空間位置的交際等都具有重要的研究意義和實用價值。
目前,隨著自然語言的處理越來越趨向于實用化和工程化,我們必須提供一種高效準確的方法來識別自然語言。
因此,提出了一種基于模式匹配的自然語言處理方法和分詞構造法。在模式匹配不能識別自然語言地址描述時,為了自動識別這種情況的自然語言地址描述數據,提供能表示常見地址描述模式的基于詞性的有限狀態機模型,并利用有限狀態機匹配和識別地址描述語句的句法結構。
發明內容
本發明要解決的技術問題是,提供一種為了自動識別這種情況的自然語言地址描述數據,提供能表示常見地址描述模式的基于詞性的有限狀態機模型,并利用有限狀態機匹配和識別地址描述語句的句法結構的自然語言地址描述的方法。
為了解決上述技術問題,本發明采用的技術方案是:該自然語言地址的自動識別方法,包括以下步驟:
(1)開始檢索識別,加載自然語言處理引擎,獲取自然語言地址描述的句子或詞語,句法或詞的語言模式提取;然后對提取的語言模進行匹配識別,看是否有模式可以匹配識別該地址描述;
(2)如有能匹配識別該地址描述的模式,則進行模式識別,并輸出結果;
(3)如果沒有能匹配識別該地址描述的模式則通過建立切詞分圖來識別;建立切圖分詞,根據有限狀態機模型,識別句法結構,進行地址描述的識別,并輸出結果。采用上述技術方案,采集地址描述語句輸入到自然語言地址描述自動識別系統中,系統對輸入的地址描述進行分析,通過模式匹配和切詞分圖對地址描述進行判斷,輸出自動識別后的地址描述到前端;通過提取模式來識別地址描述語句,如果模式識別中沒有匹配的,則再通過切詞分圖來識別,兩種方式相互輔助,識別率高,識別速度快;對于單句,以及復雜句的識別非常精確;不依賴于地名詞典中的中文地址統計分詞算法,能夠完成地址描述語句的自動分詞和詞性標注,方便用戶找到具體地點,節約了社會大眾的出行時間;方便提取出更有價值的空間信息,比如城市中地標性建筑、城市的意象化表達和空間位置描述等。
本發明進一步改進在于,所述步驟(3)中通過建立切詞分圖來識別的步驟具體包括如下步驟:
1)建立切詞分圖:把候選詞中的每個字串當作節點,把每個字串前后次序當作弧段,建立切詞分圖;
2)搜索最優路徑:從地址描述切詞分圖中搜索最優路徑,選取總弧段最小的路徑就是地址語句最佳的切分模式;即根據指定的模型從微觀序列中快速有效地選擇最優的狀態序列,從而進行地址描述的識別,并輸出結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇速度信息科技股份有限公司,未經江蘇速度信息科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810247442.4/2.html,轉載請聲明來源鉆瓜專利網。





