[發(fā)明專利]一種分詞檢索方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202111512996.0 | 申請日: | 2021-12-11 |
| 公開(公告)號: | CN114153949B | 公開(公告)日: | 2022-12-13 |
| 發(fā)明(設(shè)計(jì))人: | 付雪林;王濤;孫思遙;鄧應(yīng)來;王啟超;吳邱思;安重陽;韓嘯;張葳;曾明泉;唐海霞;趙鑫;劉成書 | 申請(專利權(quán))人: | 北京信立方科技發(fā)展股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33 |
| 代理公司: | 北京維正專利代理有限公司 11508 | 代理人: | 張倚嘉 |
| 地址: | 100032 北京市西城區(qū)新*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 分詞 檢索 方法 系統(tǒng) | ||
本申請?zhí)峁┮环N分詞檢索方法及系統(tǒng)。所述方法包括:接收用戶輸入的檢索詞;對所述檢索詞進(jìn)行單字分詞;分別計(jì)算每一語料文檔的單字相關(guān)度;將單字相關(guān)度進(jìn)行疊加生成語料文檔的相關(guān)度得分;依據(jù)所述相關(guān)度得分對所述語料文檔進(jìn)行排序以生成第一檢索結(jié)果。在單領(lǐng)域信息檢索平臺中,通過單字分詞的方式將檢索詞進(jìn)行拆分,再計(jì)算每一語料文檔的單字相關(guān)度,通過單字相關(guān)度疊加生成的相關(guān)度得分對語料文檔進(jìn)行排序。檢索過程能夠針對數(shù)據(jù)結(jié)構(gòu)類型多、用戶量小、用戶類型多且行業(yè)跨度大、專業(yè)性強(qiáng)的單領(lǐng)域信息檢索平臺進(jìn)行精準(zhǔn)的檢索,不需要再耗費(fèi)人工梳理語義模板,降低了單領(lǐng)域信息檢索平臺的維護(hù)成本,同時(shí)也實(shí)現(xiàn)了單領(lǐng)域信息檢索平臺的檢索功能。
技術(shù)領(lǐng)域
本申請涉及檢索技術(shù)領(lǐng)域,尤其是涉及一種分詞檢索方法及系統(tǒng)。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,在儀器信息方面搭建了各式各樣的平臺,使得用戶可以通過平臺檢索到關(guān)于儀器的各種信息,包括垂直領(lǐng)域的咨詢、廠商、儀器、社區(qū)、資料、網(wǎng)絡(luò)講堂、儀課通、招聘、耗材、試劑、行業(yè)應(yīng)用、專題、市場研究、會(huì)展欄目。
傳統(tǒng)的儀器信息平臺中,一般是通過搭建語義模板的方式對用戶搜索詞進(jìn)行語法依存關(guān)系的配置,以生成不同的檢索內(nèi)容排序。
儀器信息平臺本身擁有數(shù)據(jù)結(jié)構(gòu)類型多、用戶量小、用戶類型多且行業(yè)跨度大、專業(yè)性強(qiáng)的特點(diǎn),在進(jìn)行檢索過程中若想要達(dá)到精準(zhǔn)命中的目的,就需要極大的成本不斷的維護(hù)和更新語義模板,特別是在用戶體量不斷增加的當(dāng)下,越來越多的用戶在跨領(lǐng)域下搜索,進(jìn)一步的增加了儀器信息平臺的維護(hù)成本。而儀器信息平臺自身的盈利能力受限于其所服務(wù)的市場,并不能補(bǔ)足成本日漸增加的儀器信息平臺的需求,這導(dǎo)致了傳統(tǒng)儀器信息平臺的維護(hù)力度低,檢索命中率下降。
發(fā)明內(nèi)容
為了降低儀器信息平臺的檢索成本,本申請目的是提供一種分詞檢索方法及系統(tǒng)。
本申請的上述申請目的是通過以下技術(shù)方案得以實(shí)現(xiàn)的:
第一方面,本申請?zhí)峁┮环N分詞檢索方法,應(yīng)用于單領(lǐng)域信息檢索平臺,所述方法包括:
接收用戶輸入的檢索詞;
對所述檢索詞進(jìn)行單字分詞;
分別計(jì)算每一語料文檔的單字相關(guān)度;
將單字相關(guān)度進(jìn)行疊加生成語料文檔的相關(guān)度得分;
依據(jù)所述相關(guān)度得分對所述語料文檔進(jìn)行排序以生成第一檢索結(jié)果。
通過采用上述技術(shù)方案,在單領(lǐng)域信息檢索平臺中,通過單字分詞的方式將檢索詞進(jìn)行拆分,再計(jì)算每一語料文檔的單字相關(guān)度,通過單字相關(guān)度疊加生成的相關(guān)度得分對語料文檔進(jìn)行排序。檢索過程能夠針對數(shù)據(jù)結(jié)構(gòu)類型多、用戶量小、用戶類型多且行業(yè)跨度大、專業(yè)性強(qiáng)的單領(lǐng)域信息檢索平臺進(jìn)行精準(zhǔn)的檢索,不需要再耗費(fèi)人工梳理語義模板,降低了單領(lǐng)域信息檢索平臺的維護(hù)成本,同時(shí)也實(shí)現(xiàn)了單領(lǐng)域信息檢索平臺的檢索功能。
進(jìn)一步的,所述方法還包括:
依據(jù)所述相關(guān)度得分對所述語料文檔進(jìn)行排序后,依據(jù)排名順序,獲取預(yù)設(shè)數(shù)量的語料文檔生成所述第一檢索結(jié)果。
通過采用上述技術(shù)方案,在數(shù)據(jù)結(jié)構(gòu)類型多的情況下,即欄目類型多時(shí),預(yù)設(shè)數(shù)量的限定降低了單次輸出的語料文檔數(shù)量,可以輔助實(shí)現(xiàn)多個(gè)欄目的語料文檔同步顯示。
進(jìn)一步的,分別計(jì)算每一語料文檔的單字相關(guān)度的方法包括:
計(jì)算單字qi的逆向文檔頻率idf(qi),計(jì)算所述單字qi在語料文檔D中的詞頻tf(qi,D),tf(qi,D)=((k+1)*tf)/(k*(1-b+b*L)+tf);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京信立方科技發(fā)展股份有限公司,未經(jīng)北京信立方科技發(fā)展股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111512996.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





