[發(fā)明專利]一種基于lucene全文檢索的中文分詞方法在審

申請?zhí)枺?/td>	201510704461.1	申請日：	2015-10-27
公開（公告）號：	CN105279150A	公開（公告）日：	2016-01-27
發(fā)明（設(shè)計）人：	王成現(xiàn);王全強;郝翠萍	申請（專利權(quán)）人：	江蘇電力信息技術(shù)有限公司;江蘇省電力公司
主分類號：	G06F17/27	分類號：	G06F17/27
代理公司：	南京匯盛專利商標(biāo)事務(wù)所(普通合伙) 32238	代理人：	陳揚
地址：	210024 江蘇省***	國省代碼：	江蘇;32
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于 lucene 全文檢索中文分詞方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

技術(shù)領(lǐng)域

本發(fā)明屬于電力系統(tǒng)，涉及一種用于電力系統(tǒng)數(shù)據(jù)分析方法，具體地說是一種基于lucene全文檢索的中文分詞方法。

背景技術(shù)

在目前電力系統(tǒng)，特別是營銷領(lǐng)域中，數(shù)據(jù)量大，涉及面廣，值得深入分析挖掘。但由于多為文字描述，存在信息模糊、冗余的問題，難以使用傳統(tǒng)數(shù)據(jù)分析方法定量準(zhǔn)確分析。

發(fā)明內(nèi)容

針對現(xiàn)有技術(shù)中存在的問題，本發(fā)明的目的是提供一種基于lucene全文檢索的中文分詞方法，該方法對系統(tǒng)中收集的海量中文文本信息進行分詞操作，不僅可以在分詞前通過維護分詞所依賴的字典，使分詞更加切合電網(wǎng)系統(tǒng)實際，而且可以通過后期對分詞結(jié)果的進一步分析歸納，使得結(jié)果更加清晰明了。從分詞前中后三個階段出發(fā)，更好地提取營銷領(lǐng)域信息，加深對營銷問題的理解。

本發(fā)明的目的通過以下技術(shù)方案實現(xiàn)：

一種用于電力系統(tǒng)異常分類封裝的方法，其特征在于該方法包括以下步驟：

1)將字典以每行一個詞的形式存儲在數(shù)據(jù)庫中；

2)將數(shù)據(jù)庫中的字典以樹的形式緩存在服務(wù)器中；

3)輸入需要分詞的文本信息；

4)文本逐字匹配緩存中的字典樹，輸出匹配成功的最長的詞語；

5)輸出分詞結(jié)果。

本發(fā)明在程序運行之前，可以人工維護字典，除了程序自帶的包含常用詞語的主詞典和常用量詞的量詞詞典以外，用戶可根據(jù)需要增加拓展詞典和停止詞詞典，拓展詞典中可以添加電力系統(tǒng)的專有詞匯，停止詞詞典中可以添加統(tǒng)計不關(guān)心的詞匯，如虛詞、連接詞等。

本發(fā)明在程序運行過程中，首先將數(shù)據(jù)庫中的字典以樹的數(shù)據(jù)結(jié)構(gòu)形式緩存在系統(tǒng)內(nèi)存當(dāng)中，緩存中的字典一共分為主詞典、停止詞詞典和量詞字典三個，用戶添加的拓展詞典緩存在主詞典中。分詞過程中，依次取出輸入文本的單個詞元，首先進行該詞元與其后詞元的合并操作，若前后詞元符合：英文數(shù)詞與中文數(shù)詞、英文數(shù)詞與中文量詞、中文數(shù)詞與中文量詞這三類結(jié)構(gòu)，則直接將前后詞元合并得到新詞元，若不滿足，則不合并。將詞元與停止詞詞典匹配，若匹配上，則放棄該詞元，繼續(xù)取下一個詞元；若未匹配上，繼續(xù)與主詞典匹配。主詞典若未匹配上，則輸出該詞元，即該詞元分詞結(jié)束；若匹配上，則將該詞元與下一個詞元合并，繼續(xù)重復(fù)上述過程，直至全部文本取完。

分詞結(jié)束后，對于得到的分詞結(jié)果，可進行同義詞分析，即對得到的分詞結(jié)果，逐一判斷是否存在同義詞，如果存在，則保存時以該組同義詞的主次保存，如不存在，則以原詞保存。

本發(fā)明將字典詞條緩存在服務(wù)器內(nèi)存中，并根據(jù)緩存的字典詞條，將文本段落拆分成相應(yīng)的字詞，通過統(tǒng)計拆分所得字詞，來分析段落語句。該方法還支持多詞典：可屏蔽掉部分無用的詞語的停止詞詞典、增加電網(wǎng)相關(guān)專有名詞的拓展詞典、將多個意義相同的詞匯在統(tǒng)計上合并為一個主詞的同義詞詞典等，從而提高數(shù)據(jù)分析效率。

本發(fā)明對于電網(wǎng)系統(tǒng)中海量文本信息進行分詞，使難于統(tǒng)計的文本信息轉(zhuǎn)變成易于統(tǒng)計的字詞信息，并通過前期字典維護，過濾掉無關(guān)信息，以及后期同義詞轉(zhuǎn)化，合并同類信息，使得分詞結(jié)果更加清晰明了。使用戶可以從海量模糊數(shù)據(jù)中，提取有用信息加以詳細(xì)研究和概括總結(jié)，方便用戶進行語義分析和數(shù)據(jù)分析，從而及時發(fā)現(xiàn)營銷服務(wù)中的問題，提高電網(wǎng)營銷服務(wù)水平。

附圖說明

圖1是基于lucene全文檢索的中文分詞方法的流程圖。

具體實施方式

一種基于lucene全文檢索的中文分詞方法，圖1是用基于lucene全文檢索的中文分詞方法的流程圖。該方法包括以下步驟：

1.將字典以每行一個詞的形式存儲在數(shù)據(jù)庫中。除了程序自帶的包含常用詞語的主詞典和常用量詞的量詞詞典以外，用戶可根據(jù)需要增加拓展詞典和停止詞詞典。

2.將數(shù)據(jù)庫中的字典以樹的形式緩存在服務(wù)器中。緩存中的字典一共分為主詞典、停止詞詞典和量詞字典三個，用戶自行添加的拓展詞詞典存放在主詞典中。

3.輸入需要分詞的文本信息；

4.輸入文本逐字匹配緩存中的量詞、停止詞和主詞三棵字典樹，如果前詞元和后詞元可以符合數(shù)詞量詞結(jié)構(gòu)，則兩詞元合并為一個詞元。繼續(xù)匹配停止詞字典，若匹配，則放棄該詞元，否則，繼續(xù)匹配主詞典。主詞典若不不匹配，則輸出該詞元，該詞元分詞結(jié)束，否則，將該詞元與下一個詞元合并后，重復(fù)上述過程。

5.輸出分詞結(jié)果，并對得到的分詞結(jié)果進行同義詞分析，逐一判斷是否存在同義詞，如存在，則保存時以該組同義詞的主詞保存，如不存在，以原詞保存。

本發(fā)明對于電網(wǎng)系統(tǒng)中海量文本信息進行分詞，使難于統(tǒng)計的文本信息轉(zhuǎn)變成易于統(tǒng)計的字詞信息，并通過前期字典維護，過濾掉無關(guān)信息，以及后期同義詞轉(zhuǎn)化，合并同類信息，使得分詞結(jié)果更加清晰明了。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于江蘇電力信息技術(shù)有限公司;江蘇省電力公司，未經(jīng)江蘇電力信息技術(shù)有限公司;江蘇省電力公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201510704461.1/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索；及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計算機輔助設(shè)計

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】