[發明專利]一種分詞檢索方法及系統有效
| 申請號: | 202111512996.0 | 申請日: | 2021-12-11 |
| 公開(公告)號: | CN114153949B | 公開(公告)日: | 2022-12-13 |
| 發明(設計)人: | 付雪林;王濤;孫思遙;鄧應來;王啟超;吳邱思;安重陽;韓嘯;張葳;曾明泉;唐海霞;趙鑫;劉成書 | 申請(專利權)人: | 北京信立方科技發展股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33 |
| 代理公司: | 北京維正專利代理有限公司 11508 | 代理人: | 張倚嘉 |
| 地址: | 100032 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 分詞 檢索 方法 系統 | ||
1.一種分詞檢索方法,其特征在于:應用于單領域信息檢索平臺,所述方法包括:
接收用戶輸入的檢索詞;
對所述檢索詞進行單字分詞;
分別計算每一語料文檔的單字相關度;
將單字相關度進行疊加生成語料文檔的相關度得分;
依據預設加權規則計算語料文檔的特殊加權得分,依據所述相關度得分和特殊加權得分的和對所述語料文檔進行排序以生成第一檢索結果;
所述預設加權規則,包括:業務加權規則和相關度加權規則;
所述業務加權規則,包括:檢索詞出現在語料文檔中的位置、檢索詞出現的次數、檢索詞出現在不同分類等級中的位置;
所述相關度加權規則,包括:依據語料文檔中連續命中檢索詞的數量對召回結果進行加分;分別計算每一語料文檔的單字相關度的方法包括:
計算單字qi的逆向文檔頻率idf(qi)
計算所述單字qi在語料文檔d中的詞頻tf(qi,d),tf(qi,d)=((k+1)*tf)/(k*(1-b+b*L)+tf);
計算所述單字qi在語料文檔d中的單字相關度
其中,
f(qi,d)=tf(qi,d)+Norm,Norm為字段長度歸一值;
i為自然數,N為語料文檔的總量;
dft為出現單字qi的語料文檔的數量;
k為常數;
b為預設參數,用于控制字段長度歸一值所起的作用,當b取值為零時禁用歸一化,當b取值為1時啟用完全歸一化;
tf=dft/N;
|dl|是語料文檔d的長度;
avgdl是語料文檔的平均長度。
2.根據權利要求1所述的分詞檢索方法,其特征在于,所述方法還包括:
依據所述相關度得分和特殊加權得分的和對所述語料文檔進行排序后,依據排名順序,獲取預設數量的語料文檔生成所述第一檢索結果。
3.根據權利要求1所述的分詞檢索方法,其特征在于,所述方法還包括:依據所述語料文檔的內容,將所述語料文檔分組成多個欄目,依據預設排序規則對所述欄目進行排序以生成第二檢索結果,將第一檢索結果和第二檢索結果結合成最終檢索結果。
4.根據權利要求3所述的分詞檢索方法,其特征在于,所述預設排序規則包括:
分別通過用戶偏好欄目模型、檢索詞相關欄目模型、檢索詞點擊偏好欄目模型以及語法依存關系模型分別對所述欄目進行排序;
依據預設優先級規則和欄目出現在通過用戶偏好欄目模型、檢索詞相關欄目模型、檢索詞點擊偏好欄目模型以及語法依存關系模型中出現的次數對所述欄目進行欄目評分;
依據欄目評分對欄目進行排序以生成第二檢索結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京信立方科技發展股份有限公司,未經北京信立方科技發展股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111512996.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種混合驅動的可調角冷卻塔系統
- 下一篇:一種全功能碳滑板沖擊試驗機





