[發(fā)明專(zhuān)利]一種工業(yè)大數(shù)據(jù)搜索優(yōu)化方法、系統(tǒng)、設(shè)備、介質(zhì)、終端在審
| 申請(qǐng)?zhí)枺?/td> | 202110714891.7 | 申請(qǐng)日: | 2021-06-25 |
| 公開(kāi)(公告)號(hào): | CN113553408A | 公開(kāi)(公告)日: | 2021-10-26 |
| 發(fā)明(設(shè)計(jì))人: | 殷磊;孔憲光;楊天澍;王宇驚 | 申請(qǐng)(專(zhuān)利權(quán))人: | 西安電子科技大學(xué) |
| 主分類(lèi)號(hào): | G06F16/332 | 分類(lèi)號(hào): | G06F16/332;G06F16/33;G06F16/955;G06F40/284 |
| 代理公司: | 西安長(zhǎng)和專(zhuān)利代理有限公司 61227 | 代理人: | 何畏 |
| 地址: | 710071 陜西省*** | 國(guó)省代碼: | 陜西;61 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 工業(yè) 數(shù)據(jù) 搜索 優(yōu)化 方法 系統(tǒng) 設(shè)備 介質(zhì) 終端 | ||
本發(fā)明屬于工業(yè)數(shù)據(jù)處理技術(shù)領(lǐng)域,公開(kāi)了一種工業(yè)大數(shù)據(jù)搜索優(yōu)化方法、系統(tǒng)、設(shè)備、介質(zhì)、終端,所述工業(yè)大數(shù)據(jù)搜索優(yōu)化方法包括:首先收集工業(yè)領(lǐng)域?qū)I(yè)詞匯形成相關(guān)集合,將內(nèi)容存入新文檔并放在ik分詞器配置文件夾中,然后在XML文檔中配置工業(yè)擴(kuò)展字典,形成工業(yè)分詞器后,重啟Elasticsearch搜索引擎,此時(shí)工業(yè)分詞器構(gòu)建完畢。本發(fā)明提出一種專(zhuān)門(mén)應(yīng)用于工業(yè)的分詞器,通過(guò)分析分詞器的技術(shù)原理,構(gòu)建工業(yè)分詞器,在工業(yè)領(lǐng)域上對(duì)比工業(yè)分詞器與主流通用中文分詞器jieba、Ansj的分詞結(jié)果的差異,結(jié)果表明,本發(fā)明提供的基于工業(yè)分詞器的分詞取得了更優(yōu)秀的分類(lèi)性能和魯棒性,通過(guò)擴(kuò)展工業(yè)專(zhuān)業(yè)詞匯,使得分詞效果和搜索效率得到有效提升。
技術(shù)領(lǐng)域
本發(fā)明屬于工業(yè)數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種工業(yè)大數(shù)據(jù)搜索優(yōu)化方法、系統(tǒng)、設(shè)備、介質(zhì)、終端。
背景技術(shù)
目前,在工業(yè)信息化服務(wù)平臺(tái)中,數(shù)據(jù)是整個(gè)平臺(tái)的基石,檢索獲取數(shù)據(jù),是平臺(tái)核心部分。專(zhuān)業(yè)分詞器設(shè)計(jì)又是構(gòu)建數(shù)據(jù)搜索的關(guān)鍵技術(shù)。在工業(yè)領(lǐng)域,由于數(shù)據(jù)量大,數(shù)據(jù)來(lái)源多等特點(diǎn),數(shù)據(jù)檢索的效率并不高,故需對(duì)分詞器進(jìn)行研究,從而提升數(shù)據(jù)搜索效率。
Analyzer(分詞器)可將數(shù)據(jù)文本中的詞按具體的規(guī)則進(jìn)行切分。每個(gè)分詞器中存在一個(gè)抽象Analyzer類(lèi),Analyzer子類(lèi)的不同決定了分詞規(guī)則的不同,所以對(duì)于中文和外文,要用不同的分詞器,且對(duì)于不同的工業(yè)場(chǎng)景,也要使用不同的分詞器。分詞搜索引擎是根據(jù)關(guān)鍵詞查詢后用底層算法進(jìn)行匹配而完成分詞的技術(shù)。為進(jìn)一步提升工業(yè)大數(shù)據(jù)搜索效率,更好的完成工業(yè)大數(shù)據(jù)分析工作,基于倒排索引的索引機(jī)制,提出工業(yè)分詞器概念,將分詞器優(yōu)化為適用于工業(yè)生產(chǎn)搜索的工業(yè)分詞器,從而進(jìn)一步提升工業(yè)大數(shù)據(jù)搜索的時(shí)間與效率。
分詞結(jié)果的好壞程度對(duì)信息檢索和查詢結(jié)果均存在影響,分詞結(jié)果是由于分詞規(guī)則底層不同的算法所決定的。漢語(yǔ)分詞和英語(yǔ)分詞存在區(qū)別,漢語(yǔ)分詞是以漢字為單位的,英文分詞則一個(gè)單詞代表一個(gè)英語(yǔ)分詞結(jié)果。當(dāng)詞語(yǔ)的含義沒(méi)有顯著的區(qū)別,則需進(jìn)行人工分詞。分詞方法可從規(guī)則、統(tǒng)計(jì)、語(yǔ)義以及理解等角度進(jìn)行劃分,如圖8所示。
(1)基于規(guī)則的分詞方法
從分詞采用的規(guī)則進(jìn)行劃分,分詞方法包含最大匹配規(guī)則分詞法、逆向最大匹配規(guī)則分詞法以及最佳匹配規(guī)則分詞法。
最大匹配算法:此算法的分詞規(guī)則是匹配的詞越長(zhǎng)越好,在進(jìn)行分詞時(shí),首先依照分詞詞典最長(zhǎng)詞條長(zhǎng)度截取待分詞的詞條,分詞思想是盡量使得劃分的詞條長(zhǎng)度最大,當(dāng)詞典中不含有該詞條則去除整個(gè)詞條的最后一個(gè)字符,繼續(xù)進(jìn)行匹配,直至匹配成功,具體流程如圖9所示。
逆向最大匹配算法:此算法的分詞規(guī)則也同樣是匹配的詞越長(zhǎng)越好,在進(jìn)行分詞時(shí),仍然首先依照分詞詞典最長(zhǎng)詞條長(zhǎng)度截取待分詞的詞條,分詞思想也是盡量使得劃分的詞條長(zhǎng)度最大,當(dāng)詞典中不含有該詞條時(shí),此時(shí)去除整個(gè)詞條的第一個(gè)字符,然后繼續(xù)進(jìn)行匹配,直至匹配成功,具體流程如圖10所示。
逐詞匹配算法:按照分詞詞典中詞條的長(zhǎng)度逐一遍歷進(jìn)行分詞,如果待分詞的詞條存在于分詞詞典中,則進(jìn)行分詞,否則跳過(guò)繼續(xù)進(jìn)行遍歷,直至詞典中所有單詞遍歷完,此時(shí)結(jié)束分詞。
(2)基于統(tǒng)計(jì)的分詞方法
從分詞的統(tǒng)計(jì)方向來(lái)劃分,分詞方法可以分為基于隱馬爾科夫模型(HidenMarkov Model,HMM)、條件隨機(jī)場(chǎng)模型(Conditional Random Fields,CRF)以及基于最大熵模型(Maximum Entropy Model,MaxEnt)等,此類(lèi)分詞方法分詞性能穩(wěn)定。通過(guò)利用不同的統(tǒng)計(jì)模型,統(tǒng)計(jì)近鄰字符出現(xiàn)的次數(shù),通過(guò)計(jì)算近鄰字符出現(xiàn)的頻率高低,進(jìn)而判斷能否組成詞語(yǔ)。該方法可在分詞過(guò)程中消除詞語(yǔ)的歧義,更好的分析上下文完成生詞的識(shí)別。此種分詞方法可與詞典分詞方法結(jié)合使用完成分詞,進(jìn)而提升分詞的效率。
(3)基于語(yǔ)義的分詞方法
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于西安電子科技大學(xué),未經(jīng)西安電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110714891.7/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





