[發明專利]一種特征提取方法和裝置有效
| 申請號: | 201610202581.6 | 申請日: | 2016-03-31 |
| 公開(公告)號: | CN107291748B | 公開(公告)日: | 2021-01-15 |
| 發明(設計)人: | 王國印 | 申請(專利權)人: | 菜鳥智能物流控股有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/332;G06F16/36 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 蘇培華 |
| 地址: | 開曼群島大開曼島*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 特征 提取 方法 裝置 | ||
本申請涉及數據挖掘技術領域,尤其涉及一種特征提取方法和裝置,本申請提供的特征提取方法包括:確定進行分詞處理后的地址文本;根據預先設置的取詞數和跳詞數,從所述進行分詞處理后的地址文本中取詞,構成所述進行分詞處理后的地址文本的特征詞串;其中,每個特征詞串中包含的所取的詞的個數等于所述取詞數,且每個特征詞串中存在兩個相鄰的詞在所述地址文本中相隔的詞數量等于所述跳詞數。本申請方案可以對地址文本進行跳詞處理,從而有機會得到可區別性較強的特征詞串,提升對地址文本的挖掘效果。
技術領域
本申請涉及數據挖掘技術領域,尤其涉及一種特征提取方法和裝置。
背景技術
隨著數據倉庫中文本信息的飛速增長,文本挖掘成為信息領域的研究熱點。地址信息是以文本的形式存儲在數據倉庫中的,由于地址信息在大數據分析中占據非常重要的地位,地址特征挖掘作為文本挖掘的一種,其重要性也越來越明顯。
對中文地址文本進行分詞處理是進行文本挖掘的基礎,這是由中文的特點決定的。比如對中文地址文本“浙江省杭州市余杭區五常街道荊豐社區文一西路”進行分詞處理后,可以得到包括浙江省、杭州市、余杭區、五常街道、荊豐社區、文一西路這幾個詞的地址文本,分詞處理后的地址文本中的每個詞都有其對應的地址含義(比如單獨看浙、江、省這三個字,不具備任何地址含義,但將其組合后的詞浙江省就有了對應的地址含義)。在很多情況下,對于一個中文地址文本,若只提取其中的部分詞,提取的詞在很多情況下仍具有較強的可區別性。
如圖1所示,為在文本分類中對中文地址文本進行特征提取的過程。從圖1中可以看出,在文本挖掘中,首先對中文地址文本進行分詞處理,然后進行特征提取,也即從中文地址文本中進行取詞,接下來就是基于取詞結果進行分類的過程,因此,在對中文地址文本進行分詞處理后,影響中文地址文本挖掘效果的首要因素就是進行特征提取。
目前,進行特征提取的方法主要是基于n元模型(n-gram)來實現的,n-gram的定義為:若地址文本由m個詞構成(w1w2w3…wm),其中wi為地址文本中的第i個詞,則n-gram定義為:{wiwi+1…wi+n-1|1≤i≤m-n+1}。
比如,當前地址文本由5個詞組成,為w1w2w3w4w5,則:
當n=1時,產生的1-gram有w1、w2、w3、w4、w5;
當n=2時,產生的2-gram有w1w2、w2w3、w3w4、w4w5;
當n=3時,產生的3-gram有w1w2w3、,w2w3w4、w3w4w5,;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于菜鳥智能物流控股有限公司,未經菜鳥智能物流控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610202581.6/2.html,轉載請聲明來源鉆瓜專利網。





