[發(fā)明專利]停用詞表生成方法、裝置、電子設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202011307966.1 | 申請日: | 2020-11-19 |
| 公開(公告)號: | CN112395408A | 公開(公告)日: | 2021-02-23 |
| 發(fā)明(設(shè)計)人: | 李鵬宇;李劍鋒 | 申請(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/335 | 分類號: | G06F16/335;G06F16/36 |
| 代理公司: | 深圳市賽恩倍吉知識產(chǎn)權(quán)代理有限公司 44334 | 代理人: | 楊毅玲;劉麗華 |
| 地址: | 518000 廣東省深圳市福田區(qū)福*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 停用 詞表 生成 方法 裝置 電子設(shè)備 存儲 介質(zhì) | ||
本發(fā)明涉及人工智能,提供一種停用詞表生成方法、裝置、電子設(shè)備及存儲介質(zhì)。該方法能夠確定生成請求的應(yīng)用領(lǐng)域及搜索系統(tǒng),劃分預(yù)設(shè)停用詞表,得到多個第一分表,利用搜索系統(tǒng)計算每個第一分表的初始分?jǐn)?shù),結(jié)合每個初始分?jǐn)?shù)對每個第一分表進(jìn)行覓食處理,得到多個第二分表,對每個第二分表進(jìn)行聚群處理,得到多個第三分表,對每個第三分表進(jìn)行追尾處理,得到多個第四分表,調(diào)整每個第四分表的初始向量,得到多個第四分表的變動向量,根據(jù)變動向量確定多個第五分表,計算并確定分表分?jǐn)?shù)最高的第五分表為目標(biāo)停用詞表。本發(fā)明能夠提高目標(biāo)停用詞表的生成效率及準(zhǔn)確度。此外,本發(fā)明還涉及區(qū)塊鏈技術(shù),所述目標(biāo)停用詞表可存儲于區(qū)塊鏈中。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能技術(shù)領(lǐng)域,尤其涉及一種停用詞表生成方法、裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù)
在信息檢索系統(tǒng)中,停用詞表可以壓縮倒排索引的規(guī)模,提升檢索系統(tǒng)的搜索精度,并通過縮小搜索空間來提升搜索速度。目前存在的停用詞表一般針對通用領(lǐng)域,在特定領(lǐng)域中則不太適用,例如,某停用詞表中包含的“背靠背”在體育新聞領(lǐng)域中用來表示賽程緊密,在體育新聞領(lǐng)域中屬于相當(dāng)重要的詞匯。為了提高停用詞表在某些特定領(lǐng)域的適用性,目前通常在開源停用詞表的基礎(chǔ)上采用人工方式進(jìn)行增刪操作,又或者采用統(tǒng)計方法找出信息量較低的詞語組成新的停用詞表,這兩種方式都需要人工進(jìn)行參與,由于每個人對特定領(lǐng)域的理解不同,造成生成的停用詞表不統(tǒng)一,此外,這兩種方式生成停用詞表的效率很低,不利于信息檢索系統(tǒng)的搜索。
發(fā)明內(nèi)容
鑒于以上內(nèi)容,有必要提供一種停用詞表生成方法、裝置、電子設(shè)備及存儲介質(zhì),不僅能夠避免數(shù)據(jù)泄露,從而提高數(shù)據(jù)安全性,還能夠提高停用詞表生成效率,從而提高查詢服務(wù)性能。
一方面,本發(fā)明提出一種停用詞表生成方法,所述停用詞表生成方法包括:
接收停用詞表的生成請求,并確定所述停用詞表的應(yīng)用領(lǐng)域以及與所述應(yīng)用領(lǐng)域?qū)?yīng)的搜索系統(tǒng);
按照隨機(jī)抽取方式對預(yù)設(shè)停用詞表進(jìn)行劃分,得到多個第一分表;
利用所述搜索系統(tǒng)計算每個第一分表的初始分?jǐn)?shù),并結(jié)合每個初始分?jǐn)?shù)對每個第一分表進(jìn)行覓食處理,得到所述多個第一分表的多個第二分表;
對每個所述第二分表進(jìn)行聚群處理,得到所述多個第二分表的多個第三分表;
對每個所述第三分表進(jìn)行追尾處理,得到所述多個第三分表的多個第四分表;
獲取每個所述第四分表的初始向量,并根據(jù)配置概率調(diào)整每個所述初始向量,得到所述多個第四分表的變動向量;
根據(jù)所述變動向量確定與所述多個第四分表對應(yīng)的多個第五分表,并利用所述搜索系統(tǒng)計算所述多個第五分表的分表分?jǐn)?shù);
在所述多個第五分表中選取分表分?jǐn)?shù)最高的第五分表作為所述目標(biāo)停用詞表。
根據(jù)本發(fā)明優(yōu)選實(shí)施例,
所述確定所述停用詞表的應(yīng)用領(lǐng)域以及與所述應(yīng)用領(lǐng)域?qū)?yīng)的搜索系統(tǒng)包括:
解析所述生成請求的報文,得到所述生成請求攜帶的數(shù)據(jù)信息;
從配置標(biāo)簽庫中獲取預(yù)設(shè)標(biāo)簽,所述預(yù)設(shè)標(biāo)簽用于指示搜索語句;
從所述數(shù)據(jù)信息中獲取與所述預(yù)設(shè)標(biāo)簽相匹配的信息作為待搜索語句;
提取所述待搜索語句中的名詞,并利用所述名詞遍歷領(lǐng)域庫中的領(lǐng)域;
將與所述名詞匹配成功的領(lǐng)域確定為所述應(yīng)用領(lǐng)域;
獲取所述應(yīng)用領(lǐng)域的領(lǐng)域標(biāo)識,并將與所述領(lǐng)域標(biāo)識對應(yīng)的系統(tǒng)確定為所述搜索系統(tǒng)。
根據(jù)本發(fā)明優(yōu)選實(shí)施例,
所述利用所述搜索系統(tǒng)計算每個第一分表的初始分?jǐn)?shù)包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011307966.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種基于漢語言語測聽動態(tài)詞表的漢語言語自動測聽方法
- 一種中醫(yī)癥狀結(jié)構(gòu)化方法
- 一種突發(fā)事件數(shù)據(jù)的篩選方法及裝置
- 一種互譯多詞表達(dá)抽取方法及其裝置
- 詞表的存儲管理方法、裝置、電子設(shè)備及存儲介質(zhì)
- 數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲介質(zhì)
- 一種數(shù)據(jù)處理方法及相關(guān)設(shè)備
- 基于語法模式的科技詞表擴(kuò)充方法、裝置、終端、及介質(zhì)
- 一種提升動態(tài)模型識別準(zhǔn)確率的方法和系統(tǒng)
- 詞表構(gòu)建方法、機(jī)器翻譯方法及其裝置、設(shè)備與介質(zhì)





