[發(fā)明專利]非結(jié)構(gòu)化數(shù)據(jù)的處理方法和裝置在審
| 申請?zhí)枺?/td> | 201410165877.6 | 申請日: | 2014-04-23 |
| 公開(公告)號: | CN105022740A | 公開(公告)日: | 2015-11-04 |
| 發(fā)明(設(shè)計)人: | 趙關(guān)榮;劉政;張?zhí)鞊P;王雯;程志剛;馬一人 | 申請(專利權(quán))人: | 蘇州易維迅信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京同立鈞成知識產(chǎn)權(quán)代理有限公司 11205 | 代理人: | 劉芳 |
| 地址: | 215163 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 結(jié)構(gòu) 數(shù)據(jù) 處理 方法 裝置 | ||
1.一種非結(jié)構(gòu)化數(shù)據(jù)的處理方法,其特征在于,包括:
根據(jù)預(yù)先配置的字典樹,對獲取的待處理的數(shù)據(jù)進(jìn)行分詞處理,獲取分詞結(jié)果;所述字典樹是根據(jù)所述預(yù)先配置的知識數(shù)據(jù)庫建立的,其中,所述知識數(shù)據(jù)庫為二元組的集合,且所述二元組的集合包括文本信息和對應(yīng)的編號;
采用向量空間模型VSM,對所述分詞結(jié)果進(jìn)行向量化處理,獲取向量化結(jié)果;
采用主成分分析法PCA或奇異值分解算法SVD,對所述向量化結(jié)果進(jìn)行降維處理,獲取降維結(jié)果;
采用數(shù)據(jù)挖掘算法K-means算法對所述降維結(jié)果進(jìn)行連續(xù)兩次聚類計算,并根據(jù)所述聚類計算獲取的歐氏距離或余弦相似度,對所述待處理數(shù)據(jù)進(jìn)行聚類,獲取聚類結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)預(yù)先配置的字典樹之前,還包括:
構(gòu)建所述字典樹的根節(jié)點root=(a,flag,next);其中,a表示所述根節(jié)點代表的字符,flag表示所述根節(jié)點對應(yīng)的編號,且flag=-1;next表示所述根節(jié)點的子節(jié)點的集合,且所述next為空集;
對于與所述知識數(shù)據(jù)庫中每個二元組r=(id,t),獲取二元組中的字符alen;并判斷節(jié)點p的子節(jié)點集合NEXT(p)中會否存在節(jié)點p+1滿足A(p+1)=alen;其中,t表示所述文本信息;id表示所述文本信息對應(yīng)的編號,且1≤id≤maxid;所述二元組表示為r=(id,t);所述a為二元組;alen表示所述二元組中文本信息中的字符;len表示alen在所述二元組中的位置;len為正整數(shù),且大于或等于1,小于或等于所述二元組中的字符總數(shù);初始時,len等于1,且節(jié)點p為所述根節(jié)點對應(yīng)的字樹中的第1節(jié)點;
若所述節(jié)點p的所述子節(jié)點集合NEXT(p)中存在節(jié)點p+1滿足A(p+1)=alen,將len和p分別加1,重復(fù)執(zhí)行該步驟,直至len等于所述二元組中的字符總數(shù);其中,節(jié)點p+1為節(jié)點p的子節(jié)點。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,還包括:
若所述節(jié)點p的所述子節(jié)點集合NEXT(p)中不存在節(jié)點p+1滿足A(p+1)=alen,則在所述節(jié)點p下增加一個子節(jié)點q,并使得且NEXT(p)=NEXT(p)Yq。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)預(yù)先配置的字典樹,對獲取的待處理的數(shù)據(jù)進(jìn)行分詞處理,獲取分詞結(jié)果,包括:
對于待處理的數(shù)據(jù)中的每一條信息,根據(jù)預(yù)先配置的字典樹,判斷節(jié)點p的子節(jié)點集合NEXT(p)中是否存在節(jié)點q中的字符A(q)等于所述信息中的字符an;初始時,n等于1;
若存在節(jié)點q中的字符A(q)等于待處理的數(shù)據(jù)中的所述信息的字符an,則記錄所述待處理數(shù)據(jù)的所述信息的匹配長度為s;判斷節(jié)點q的子節(jié)點集合NEXT(q)中是否存在節(jié)點q+1中的字符A(q+1)等于待處理的數(shù)據(jù)中的所述信息的字符an+1,若存在節(jié)點q+1中的字符A(q+1)等于待處理的數(shù)據(jù)中的所述信息的字符an+1,則將s,n和q分別加1,重復(fù)執(zhí)行該步驟,直至節(jié)點q的子節(jié)點集合中不存在節(jié)點中的字符等于待處理的數(shù)據(jù)中的所述信息的字符al,獲取分詞結(jié)果,所述分詞結(jié)果包括字符an至al,且所述分詞結(jié)果的長度等于當(dāng)前記錄的所述待處理數(shù)據(jù)的所述信息的匹配長度s;
分別獲取所述分詞結(jié)果在所述待處理的數(shù)據(jù)中每一條信息中出現(xiàn)的次數(shù);
其中,當(dāng)n等于1時,s的初始值等于0;節(jié)點q+1為節(jié)點q的子節(jié)點。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州易維迅信息科技有限公司,未經(jīng)蘇州易維迅信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410165877.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 卡片結(jié)構(gòu)、插座結(jié)構(gòu)及其組合結(jié)構(gòu)
- 鋼結(jié)構(gòu)平臺結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 單元結(jié)構(gòu)、結(jié)構(gòu)部件和夾層結(jié)構(gòu)
- 鋼結(jié)構(gòu)扶梯結(jié)構(gòu)
- 鋼結(jié)構(gòu)隔墻結(jié)構(gòu)
- 鋼結(jié)構(gòu)連接結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





