[發明專利]地址興趣面模型的訓練方法、地址的預測方法及裝置在審
| 申請號: | 202010685497.0 | 申請日: | 2020-07-16 |
| 公開(公告)號: | CN111931478A | 公開(公告)日: | 2020-11-13 |
| 發明(設計)人: | 郭振未;尹飛;趙云杰;胡貴根;張錦;藍媛青;韓榮妹;張定棋 | 申請(專利權)人: | 豐圖科技(深圳)有限公司 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F40/279;G06F40/151;G06N3/08 |
| 代理公司: | 深圳紫藤知識產權代理有限公司 44570 | 代理人: | 官建紅 |
| 地址: | 518052 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 地址 興趣 模型 訓練 方法 預測 裝置 | ||
本申請提供了一種地址興趣面模型的訓練方法、地址的預測方法及裝置,該地址興趣面模型的訓練方法包括:獲取地址文本樣本;對地址文本樣本進行向量化,得到文本內容向量序列和文本詞級向量序列;對文本內容向量序列和文本詞級向量序列進行拼接,得到地址文本向量序列;基于地址文本向量序列對待訓練地址興趣面模型進行訓練,得到目標地址興趣面模型。本申請不僅對地址文本樣本的文本內容進行向量化,還對地址文本樣本的文本詞級也進行了向量化,最后再合并使用,能夠更好的表現地址文本樣本向量化后的地址文本詞級關系,從而能夠得到預測能力更準確的目標地址興趣面模型,提高對地址預測的準確率。
技術領域
本申請涉及自然語言處理和及機器學習技術領域,具體涉及一種地址興趣面模型的訓練方法、地址的預測方法及裝置。
背景技術
自然語言處理(Nature Language processing,NLP)是計算機科學領域與人工智能領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數學于一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言,所以它與語言學的研究有著密切的聯系。自然語言處理技術通常包括文本處理、語義理解、機器翻譯、機器人問答、知識圖譜等技術。
機器學習(Machine Learning,ML)是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法復雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。機器學習是人工智能的核心,是使計算機具有智能的根本途徑,其應用遍及人工智能的各個領域。機器學習和深度學習通常包括人工神經網絡、置信網絡、強化學習、遷移學習、歸納學習、式教學習等技術。
AOI(area of interest),即信息面,也叫興趣面。指的是地圖數據中的區域狀的地理實體。大廈、寫字樓、廣場、醫院、學校、居住小區等區域都是獨立的AOI,每個AOI包含的地址都有很多不同寫法、有不同描述方式。地址寫法的多樣性使得地址與AOI之間的映射關系不能通過一個有限的字典映射集合來涵蓋完整,如:軟件產業基地、軟基都是指同一個AOI。當同一個地物的中文地址寫法多樣,無法建立全面窮舉的地址名稱與地物標簽間多對一的線性函數映射關系的問題,造成對地址預測的準確率較低。
發明內容
本申請旨在提供一種地址興趣面模型的訓練方法、地址的預測方法及裝置,旨在解決現有技術對地址預測的準確率較低的問題。
一方面,本申請提供一種地址興趣面模型的訓練方法,所述訓練方法包括:
獲取地址文本樣本;
對所述地址文本樣本進行向量化,得到文本內容向量序列和文本詞級向量序列;
對所述文本內容向量序列和文本詞級向量序列進行拼接,得到地址文本向量序列;
基于所述地址文本向量序列對待訓練地址興趣面模型進行訓練,得到目標地址興趣面模型。
其中,所述對所述地址文本樣本進行向量化,得到文本內容向量序列和文本詞級向量序列,包括:
對所述地址文本樣本進行分詞,得到多個第一地址文本分詞和所述多個第一地址文本分詞對應的詞級序列;
對所述多個第一地址文本分詞進行向量化,得到所述文本內容向量序列;
對所述詞級序列進行向量化,得到所述文本詞級向量序列。
其中,所述對所述地址文本樣本進行分詞,得到多個第一地址文本分詞和所述多個第一地址文本分詞對應的詞級序列,包括:
對所述地址文本樣本進行分詞,得到多個第二地址文本分詞和所述多個第二地址文本分詞的詞級;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于豐圖科技(深圳)有限公司,未經豐圖科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010685497.0/2.html,轉載請聲明來源鉆瓜專利網。





