[發(fā)明專利]一種基于lucene全文檢索的中文分詞方法在審
| 申請?zhí)枺?/td> | 201510704461.1 | 申請日: | 2015-10-27 |
| 公開(公告)號: | CN105279150A | 公開(公告)日: | 2016-01-27 |
| 發(fā)明(設(shè)計)人: | 王成現(xiàn);王全強;郝翠萍 | 申請(專利權(quán))人: | 江蘇電力信息技術(shù)有限公司;江蘇省電力公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 南京匯盛專利商標(biāo)事務(wù)所(普通合伙) 32238 | 代理人: | 陳揚 |
| 地址: | 210024 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 lucene 全文 檢索 中文 分詞 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于電力系統(tǒng),涉及一種用于電力系統(tǒng)數(shù)據(jù)分析方法,具體地說是一種基于lucene全文檢索的中文分詞方法。
背景技術(shù)
在目前電力系統(tǒng),特別是營銷領(lǐng)域中,數(shù)據(jù)量大,涉及面廣,值得深入分析挖掘。但由于多為文字描述,存在信息模糊、冗余的問題,難以使用傳統(tǒng)數(shù)據(jù)分析方法定量準(zhǔn)確分析。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)中存在的問題,本發(fā)明的目的是提供一種基于lucene全文檢索的中文分詞方法,該方法對系統(tǒng)中收集的海量中文文本信息進行分詞操作,不僅可以在分詞前通過維護分詞所依賴的字典,使分詞更加切合電網(wǎng)系統(tǒng)實際,而且可以通過后期對分詞結(jié)果的進一步分析歸納,使得結(jié)果更加清晰明了。從分詞前中后三個階段出發(fā),更好地提取營銷領(lǐng)域信息,加深對營銷問題的理解。
本發(fā)明的目的通過以下技術(shù)方案實現(xiàn):
一種用于電力系統(tǒng)異常分類封裝的方法,其特征在于該方法包括以下步驟:
1)將字典以每行一個詞的形式存儲在數(shù)據(jù)庫中;
2)將數(shù)據(jù)庫中的字典以樹的形式緩存在服務(wù)器中;
3)輸入需要分詞的文本信息;
4)文本逐字匹配緩存中的字典樹,輸出匹配成功的最長的詞語;
5)輸出分詞結(jié)果。
本發(fā)明在程序運行之前,可以人工維護字典,除了程序自帶的包含常用詞語的主詞典和常用量詞的量詞詞典以外,用戶可根據(jù)需要增加拓展詞典和停止詞詞典,拓展詞典中可以添加電力系統(tǒng)的專有詞匯,停止詞詞典中可以添加統(tǒng)計不關(guān)心的詞匯,如虛詞、連接詞等。
本發(fā)明在程序運行過程中,首先將數(shù)據(jù)庫中的字典以樹的數(shù)據(jù)結(jié)構(gòu)形式緩存在系統(tǒng)內(nèi)存當(dāng)中,緩存中的字典一共分為主詞典、停止詞詞典和量詞字典三個,用戶添加的拓展詞典緩存在主詞典中。分詞過程中,依次取出輸入文本的單個詞元,首先進行該詞元與其后詞元的合并操作,若前后詞元符合:英文數(shù)詞與中文數(shù)詞、英文數(shù)詞與中文量詞、中文數(shù)詞與中文量詞這三類結(jié)構(gòu),則直接將前后詞元合并得到新詞元,若不滿足,則不合并。將詞元與停止詞詞典匹配,若匹配上,則放棄該詞元,繼續(xù)取下一個詞元;若未匹配上,繼續(xù)與主詞典匹配。主詞典若未匹配上,則輸出該詞元,即該詞元分詞結(jié)束;若匹配上,則將該詞元與下一個詞元合并,繼續(xù)重復(fù)上述過程,直至全部文本取完。
分詞結(jié)束后,對于得到的分詞結(jié)果,可進行同義詞分析,即對得到的分詞結(jié)果,逐一判斷是否存在同義詞,如果存在,則保存時以該組同義詞的主次保存,如不存在,則以原詞保存。
本發(fā)明將字典詞條緩存在服務(wù)器內(nèi)存中,并根據(jù)緩存的字典詞條,將文本段落拆分成相應(yīng)的字詞,通過統(tǒng)計拆分所得字詞,來分析段落語句。該方法還支持多詞典:可屏蔽掉部分無用的詞語的停止詞詞典、增加電網(wǎng)相關(guān)專有名詞的拓展詞典、將多個意義相同的詞匯在統(tǒng)計上合并為一個主詞的同義詞詞典等,從而提高數(shù)據(jù)分析效率。
本發(fā)明對于電網(wǎng)系統(tǒng)中海量文本信息進行分詞,使難于統(tǒng)計的文本信息轉(zhuǎn)變成易于統(tǒng)計的字詞信息,并通過前期字典維護,過濾掉無關(guān)信息,以及后期同義詞轉(zhuǎn)化,合并同類信息,使得分詞結(jié)果更加清晰明了。使用戶可以從海量模糊數(shù)據(jù)中,提取有用信息加以詳細(xì)研究和概括總結(jié),方便用戶進行語義分析和數(shù)據(jù)分析,從而及時發(fā)現(xiàn)營銷服務(wù)中的問題,提高電網(wǎng)營銷服務(wù)水平。
附圖說明
圖1是基于lucene全文檢索的中文分詞方法的流程圖。
具體實施方式
一種基于lucene全文檢索的中文分詞方法,圖1是用基于lucene全文檢索的中文分詞方法的流程圖。該方法包括以下步驟:
1.將字典以每行一個詞的形式存儲在數(shù)據(jù)庫中。除了程序自帶的包含常用詞語的主詞典和常用量詞的量詞詞典以外,用戶可根據(jù)需要增加拓展詞典和停止詞詞典。
2.將數(shù)據(jù)庫中的字典以樹的形式緩存在服務(wù)器中。緩存中的字典一共分為主詞典、停止詞詞典和量詞字典三個,用戶自行添加的拓展詞詞典存放在主詞典中。
3.輸入需要分詞的文本信息;
4.輸入文本逐字匹配緩存中的量詞、停止詞和主詞三棵字典樹,如果前詞元和后詞元可以符合數(shù)詞量詞結(jié)構(gòu),則兩詞元合并為一個詞元。繼續(xù)匹配停止詞字典,若匹配,則放棄該詞元,否則,繼續(xù)匹配主詞典。主詞典若不不匹配,則輸出該詞元,該詞元分詞結(jié)束,否則,將該詞元與下一個詞元合并后,重復(fù)上述過程。
5.輸出分詞結(jié)果,并對得到的分詞結(jié)果進行同義詞分析,逐一判斷是否存在同義詞,如存在,則保存時以該組同義詞的主詞保存,如不存在,以原詞保存。
本發(fā)明對于電網(wǎng)系統(tǒng)中海量文本信息進行分詞,使難于統(tǒng)計的文本信息轉(zhuǎn)變成易于統(tǒng)計的字詞信息,并通過前期字典維護,過濾掉無關(guān)信息,以及后期同義詞轉(zhuǎn)化,合并同類信息,使得分詞結(jié)果更加清晰明了。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于江蘇電力信息技術(shù)有限公司;江蘇省電力公司,未經(jīng)江蘇電力信息技術(shù)有限公司;江蘇省電力公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510704461.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種取詞翻譯的方法和裝置
- 下一篇:一種譯員稿件快速匹配方法
- 基于Lucene和Solr實現(xiàn)全文檢索的方法
- 基于Lucene的光譜曲線檢索方法及引擎
- 一種基于海量數(shù)據(jù)類SQL檢索場景的自動識別優(yōu)化方法
- 一種針對海量數(shù)據(jù)全文檢索場景的實現(xiàn)方法
- 基于文法網(wǎng)絡(luò)和lucene的語義分析方法
- 一種地理信息要素的檢索方法、裝置、設(shè)備及存儲介質(zhì)
- 基于Lucene和文法網(wǎng)絡(luò)的聊天機器人及其實現(xiàn)方法
- 一種集合Lucene和Hbase的電力數(shù)據(jù)檢索系統(tǒng)
- 一種基于Lucene的預(yù)計算方法
- 一種實現(xiàn)Hbase二級索引的方法





