[發明專利]識別方法、裝置、終端及計算機可讀存儲介質在審
| 申請號: | 201811540503.2 | 申請日: | 2018-12-14 |
| 公開(公告)號: | CN109558596A | 公開(公告)日: | 2019-04-02 |
| 發明(設計)人: | 陳萬慧;錢城;汪偉;簡杰生;付倩;王云敏;董宇康;蘇雪婷;田麗珍 | 申請(專利權)人: | 平安城市建設科技(深圳)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 深圳市世紀恒程知識產權代理事務所 44287 | 代理人: | 胡海國 |
| 地址: | 518000 廣東省深圳市前海深港合作區前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 地址信息 語句 計算機可讀存儲介質 概率 準確度 終端 自然語言處理 地址詞典 結構化 層級 預設 查找 | ||
本發明公開了一種識別方法、裝置、終端及計算機可讀存儲介質。識別方法包括步驟:獲取包含有地址信息的待識別語句,將待識別語句中第一個數字或字母之前的部分作為第一段;對第一段進行多次切分得到多個切分鏈,每個切分鏈包含多個待確定名詞;從預設的地址詞典中查找與每個待確定名詞對應的概率并得到各切分鏈的概率和;將概率和最大的切分鏈作為最優切分鏈,將最優切分鏈的待確定名詞確定為地點名詞;根據與最優切分鏈的地點名詞對應的地址層級得到行政地址信息。如此,將概率和最大的切分鏈作為最優切分鏈,根據最優切分鏈的地點名詞得到地址信息,這樣對自然語言處理、識別過程中,待識別語句的結構化程度不影響識別準確度,從而提高識別的準確度。
技術領域
本發明涉及自然語言處理技術領域,尤其涉及一種識別方法、裝置、終端及計算機可讀存儲介質。
背景技術
在房產相關系統錄入房源或查找房源時,需要根據輸入的包含有地址信息的自然語句,確定自然語句中的地址信息。然而在相關技術中,通常通過正則匹配或模糊匹配的方式,識別包含有地址信息的自然語句中的地址信息。由于中文表達具有多變性,而正則匹配或模糊匹配這些對輸入地址字符串的結構化程度敏感性高,導致識別的準確度不夠高。
發明內容
本發明的主要目的在于提供一種識別方法、裝置、終端及計算機可讀存儲介質,旨在解決識別包含有地址信息的自然語句中的地址信息時,識別準確度較低的技術問題。
為實現上述目的,本發明提供一種識別方法,包括步驟:
獲取包含有地址信息的待識別語句,將所述待識別語句中第一個數字或字母之前的部分作為第一段,將所述第一個數字或字母及之后的部分作為第二段;
使用預設規則對所述第一段進行多次切分得到多個切分鏈,每個所述切分鏈包含多個待確定名詞;
從預設的地址詞典中查找與每個所述待確定名詞對應的概率,并根據每個所述切分鏈中多個待確定名詞對應的概率得到各切分鏈的概率和,所述地址詞典中包含地點名詞、與所述地點名詞對應的概率及地址層級;
將所述概率和最大的切分鏈作為最優切分鏈,并將所述最優切分鏈的待確定名詞確定為地點名詞;
從所述地址詞典獲取所述最優切分鏈的地點名詞對應的地址層級,并根據與所述最優切分鏈的地點名詞對應的所述地址層級得到行政地址信息。
優選地,所述獲取包含有地址信息的待識別語句,將所述待識別語句中第一個數字或字母之前的部分作為第一段,將所述第一個數字或字母及之后的部分作為第二段的步驟包括:
獲取包含有地址信息的待識別語句;
判斷所述待識別語句中是否包含數字或字母;
若所述待識別語句中包含數字或字母,則將所述待識別語句中第一個數字或字母之前的部分作為第一段,將所述第一個數字或字母及之后的部分作為第二段;
若所述待識別語句中不包含數字或字母,則將所述待識別語句作為所述第一段。
優選地,所述從預設的地址詞典中查找每個所述待確定名詞對應的概率的步驟之前,還包括步驟:
采集多個包含有地址信息的樣本語句;
統計所述樣本語句中的各地點名詞以得到樣本語句中的每個地點名詞的概率;
獲取所述樣本語句中的每個地點名詞對應的地址層級,并將所述樣本語句中的每個地點名詞的概率及對應的地址層級存入所述地址詞典。
優選地,所述統計所述樣本語句中的各地點名詞以得到樣本語句中的每個地點名詞的概率的步驟包括:
獲取所述樣本語句中的城市信息;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安城市建設科技(深圳)有限公司,未經平安城市建設科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811540503.2/2.html,轉載請聲明來源鉆瓜專利網。





