[發(fā)明專利]非結(jié)構(gòu)化數(shù)據(jù)的處理方法和裝置在審
| 申請(qǐng)?zhí)枺?/td> | 201410165877.6 | 申請(qǐng)日: | 2014-04-23 |
| 公開(公告)號(hào): | CN105022740A | 公開(公告)日: | 2015-11-04 |
| 發(fā)明(設(shè)計(jì))人: | 趙關(guān)榮;劉政;張?zhí)鞊P(yáng);王雯;程志剛;馬一人 | 申請(qǐng)(專利權(quán))人: | 蘇州易維迅信息科技有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;G06F17/27 |
| 代理公司: | 北京同立鈞成知識(shí)產(chǎn)權(quán)代理有限公司 11205 | 代理人: | 劉芳 |
| 地址: | 215163 江蘇省*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 結(jié)構(gòu) 數(shù)據(jù) 處理 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明實(shí)施例涉及計(jì)算機(jī)領(lǐng)域,尤其涉及一種非結(jié)構(gòu)化數(shù)據(jù)的處理方法和裝置。
背景技術(shù)
列車的客服系統(tǒng)在實(shí)際的運(yùn)行過(guò)程中會(huì)產(chǎn)生大量的客運(yùn)服務(wù)系統(tǒng)報(bào)表記錄數(shù)據(jù),這些數(shù)據(jù)中蘊(yùn)含了豐富的與系統(tǒng)運(yùn)行相關(guān)的信息,且這些數(shù)據(jù)一般都是非結(jié)構(gòu)化的,即沒(méi)有一定的格式,因此,主要采用非結(jié)構(gòu)化數(shù)據(jù)聚類的方法對(duì)這些數(shù)據(jù)進(jìn)行處理。
目前,該非結(jié)構(gòu)化數(shù)據(jù)聚類的方法主要包括隱含語(yǔ)義分析(Latent?Semantic?Analysis,簡(jiǎn)稱LSA)方法。該LSA方法主要分為三步:分詞、向量化和聚類。具體的,先采用漢語(yǔ)詞法分析系統(tǒng)(Institute?of?Computing?Technology,Chinese?Lexical?Analysis?System,簡(jiǎn)稱ICTCLAS)對(duì)待聚類數(shù)據(jù)進(jìn)行分詞,獲取分詞結(jié)果;然后采用DF算法對(duì)該分詞結(jié)果進(jìn)行特征提取,獲取特征詞,再采用向量空間模型(Vector?Space?Model,簡(jiǎn)稱VSM)對(duì)獲取到的特征詞進(jìn)行向量化,得到一個(gè)矩陣Y來(lái)表示所有的特征詞,并采用奇異值分解(Singular?value?decomposition,簡(jiǎn)稱SVD)對(duì)該矩陣Y進(jìn)行降維,獲取降維后的數(shù)據(jù)矩陣W。最后,采用Kmeans算法對(duì)數(shù)據(jù)矩陣W進(jìn)行聚類,得到最終的數(shù)據(jù)聚類結(jié)果。需要說(shuō)明的是,對(duì)分詞結(jié)果進(jìn)行特征提取的原理是:如果一個(gè)詞的出現(xiàn)頻率很高或者很低,那么這個(gè)詞的信息含量很少,大部分?jǐn)?shù)據(jù)都含有這個(gè)詞或者都不含這個(gè)詞,那么該詞對(duì)分辨這些數(shù)據(jù)是毫無(wú)意義的,可以不提取該詞。
但是,現(xiàn)有的LSA方法在處理客運(yùn)服務(wù)系統(tǒng)報(bào)表記錄數(shù)據(jù)時(shí)會(huì)存在如下缺陷:一是由于客運(yùn)服務(wù)系統(tǒng)報(bào)表記錄數(shù)據(jù)的專業(yè)化程度很高,即含有豐富的專業(yè)詞匯,因此在分詞過(guò)程中容易將這些數(shù)據(jù)中的專業(yè)詞匯刪除;二是由于客運(yùn)服務(wù)系統(tǒng)報(bào)表記錄數(shù)據(jù)并不是一個(gè)完整的語(yǔ)句,有可能僅僅是一些短語(yǔ),甚至不一定符合語(yǔ)法規(guī)范,因此,采用ICTCLAS對(duì)其進(jìn)行分詞很難得到合適的分詞結(jié)果,從而造成了在采用LSA方法在處理客運(yùn)服務(wù)系統(tǒng)報(bào)表記錄數(shù)據(jù)時(shí)獲取的聚類結(jié)果質(zhì)量較低的問(wèn)題。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供一種非結(jié)構(gòu)化數(shù)據(jù)的處理方法和裝置,解決了現(xiàn)有技術(shù)中將出現(xiàn)次數(shù)很高和很低的詞匯刪除,造成不合適的分詞結(jié)果,導(dǎo)致聚類結(jié)果的質(zhì)量較低的問(wèn)題,有效的提高了對(duì)非結(jié)構(gòu)化數(shù)據(jù)的聚類處理的質(zhì)量和效率。
本發(fā)明實(shí)施例第一方面提供一種非結(jié)構(gòu)化數(shù)據(jù)的處理方法,包括:
根據(jù)預(yù)先配置的字典樹,對(duì)獲取的待處理的數(shù)據(jù)進(jìn)行分詞處理,獲取分詞結(jié)果;所述字典樹是根據(jù)所述預(yù)先配置的知識(shí)數(shù)據(jù)庫(kù)建立的,其中,所述知識(shí)數(shù)據(jù)庫(kù)為二元組的集合,且所述二元組的集合包括文本信息和對(duì)應(yīng)的編號(hào);
采用向量空間模型VSM,對(duì)所述分詞結(jié)果進(jìn)行向量化處理,獲取向量化結(jié)果;
采用主成分分析法PCA或奇異值分解算法SVD,對(duì)所述向量化結(jié)果進(jìn)行降維處理,獲取降維結(jié)果;
采用數(shù)據(jù)挖掘算法K-means算法對(duì)所述降維結(jié)果進(jìn)行連續(xù)兩次聚類計(jì)算,并根據(jù)所述聚類計(jì)算獲取的歐氏距離或余弦相似度,對(duì)所述待處理數(shù)據(jù)進(jìn)行聚類,獲取聚類結(jié)果。
本發(fā)明第二方面提供一種非結(jié)構(gòu)化數(shù)據(jù)的處理裝置,包括:
分詞模塊,用于根據(jù)預(yù)先配置的字典樹,對(duì)獲取的待處理的數(shù)據(jù)進(jìn)行分詞處理,獲取分詞結(jié)果;所述字典樹是根據(jù)所述預(yù)先配置的知識(shí)數(shù)據(jù)庫(kù)建立的,其中,所述知識(shí)數(shù)據(jù)庫(kù)為二元組的集合,且所述二元組的集合包括文本信息和對(duì)應(yīng)的編號(hào);
向量化模塊,用于采用向量空間模型VSM,對(duì)所述分詞結(jié)果進(jìn)行向量化處理,獲取向量化結(jié)果;
降維模塊,用于采用主成分分析法PCA或奇異值分解算法SVD,對(duì)所述向量化結(jié)果進(jìn)行降維處理,獲取降維結(jié)果;
聚類模塊,用于采用數(shù)據(jù)挖掘算法K-means算法對(duì)所述降維結(jié)果進(jìn)行連續(xù)兩次聚類計(jì)算,并根據(jù)所述聚類計(jì)算獲取的歐氏距離或余弦相似度,對(duì)所述待處理數(shù)據(jù)進(jìn)行聚類,獲取聚類結(jié)果。
本發(fā)明提供的非結(jié)構(gòu)化數(shù)據(jù)的處理方法和裝置,根據(jù)知識(shí)數(shù)據(jù)庫(kù)構(gòu)建的字典樹對(duì)待處理的數(shù)據(jù)進(jìn)行分詞處理獲得分詞結(jié)果,并對(duì)該分詞結(jié)果進(jìn)行向量化,進(jìn)一步進(jìn)行降維處理獲得降維結(jié)果,再對(duì)該降維結(jié)果進(jìn)行連續(xù)兩次的聚類計(jì)算,獲取聚類結(jié)果,解決了現(xiàn)有技術(shù)中將出現(xiàn)次數(shù)很高和很低的詞匯刪除,造成不合適的分詞結(jié)果,導(dǎo)致聚類結(jié)果的質(zhì)量較低的問(wèn)題,有效的提高了數(shù)據(jù)進(jìn)行聚類處理的質(zhì)量和效率。
附圖說(shuō)明
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州易維迅信息科技有限公司,未經(jīng)蘇州易維迅信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410165877.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 卡片結(jié)構(gòu)、插座結(jié)構(gòu)及其組合結(jié)構(gòu)
- 鋼結(jié)構(gòu)平臺(tái)結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 單元結(jié)構(gòu)、結(jié)構(gòu)部件和夾層結(jié)構(gòu)
- 鋼結(jié)構(gòu)扶梯結(jié)構(gòu)
- 鋼結(jié)構(gòu)隔墻結(jié)構(gòu)
- 鋼結(jié)構(gòu)連接結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





