[發明專利]一種檢索請求語義擴展方法在審
| 申請號: | 201911344526.0 | 申請日: | 2019-12-24 |
| 公開(公告)號: | CN111126074A | 公開(公告)日: | 2020-05-08 |
| 發明(設計)人: | 陳澤峰;鬲玲;章翔峰;張明;單卓鑫 | 申請(專利權)人: | 北京神舟航天軟件技術有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F16/33;G06F16/36 |
| 代理公司: | 北京世譽鑫誠專利代理事務所(普通合伙) 11368 | 代理人: | 孫國棟 |
| 地址: | 100094*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 檢索 請求 語義 擴展 方法 | ||
本發明實施例提供的檢索請求語義擴展方法,涉及信息檢索技術領域,通過接收用戶發送的檢索請求并對檢索請求進行預處理,生成關鍵詞列表;判斷關鍵詞列表是否為詞表模型中的詞匯,若是,則根據檢索請求,判斷用戶的檢索意圖;根據檢索意圖,為關鍵詞列表匹配對應的擴展策略;根據擴展策略,對關鍵詞列表進行語義擴展,生成第一擴展詞集;分別計算第一擴展詞集中的各個擴展詞與所述關鍵詞列表中的各個關鍵詞的語義相關度,濾除語義相關度度小于設定閾值的擴展詞,生成第二擴展詞集,能夠準確地獲取詞匯關系,實現了有效地對用戶的領域性檢索請求進行擴展,不依賴詞典對用戶的檢索請求進行擴展,提高了擴展的效率及精確度。
技術領域
本發明涉及信息檢索技術領域,具體涉及一種檢索請求語義擴展方法。
背景技術
為了在海量的網絡數據中進行有效地查找信息,搜索引擎成為了必要查找工具。如何提高引擎的檢索精度是近年來備受關注的技術熱點。傳統的關鍵詞匹配方式已經滿足不了用戶的檢索需求,這種精確匹配的方式在以下的應用場景中存在很大的缺陷:用戶無法精確描述檢索需求、相同的檢索意圖可以有多種不同的描述方式。
為了能盡可能地滿足用戶的檢索期望,為用戶返回更加精準的檢索結果,對用戶的檢索請求進行擴展成為一種解決以上問題的有效方式。目前在詞匯擴展方面已存在一些比較成熟的技術方案,如由普林斯頓大學整理完成的一種基于認知語言學的英文詞匯語義網“WordNet”、微軟的“MindNet”、以WordNet為框架研制的現代漢語概念詞典“中文概念辭書”和以漢語、英語的詞語所代表的概念為描述對象、以揭示概念與概念之間以及概念所具有的實屬性之間的關系為基本內容的常識知識庫“HowNet”,這些詞典都可以作為詞匯語義擴展的依據和基礎。此外,還有基于統計的詞匯擴展方法,即通過分析語料中的詞匯共現來確定詞匯的擴展結果。
現有的語義擴展方法存在以下不缺陷:
(1)詞典的維護成本較高,當有新詞出現而沒有加入到語義網絡中時,無法準確地獲取詞匯關系,導致無法有效地對用戶的檢索請求進行擴展;
(2)結合用戶的組織、角色等信息,用戶的檢索請求往往具有領域性,而涵蓋各方面信息的詞典對于具有領域性的用戶而言存在嚴重的信息冗余問題,導致擴展效率及精確度較低;
(3)詞典的組織方式無法按類別歸類詞匯,使得詞匯的擴展在語義上過于發散,無法聚焦到某個或某些領域。
發明內容
為解決現有技術的不足,本發明實施例提供了一種檢索請求語義擴展方法,該檢索請求語義擴展方法包括以下步驟:
接收用戶發送的檢索請求并對所述檢索請求進行預處理,生成關鍵詞列表;
判斷所述關鍵詞列表是否為詞表模型中的詞匯,若是,則根據所述檢索請求,判斷用戶的檢索意圖;
根據所述檢索意圖,為所述關鍵詞列表匹配對應的擴展策略;
根據所述擴展策略,對所述關鍵詞列表進行語義擴展,生成第一擴展詞集;
分別計算所述第一擴展詞集中的各個擴展詞與所述關鍵詞列表中的各個關鍵詞的語義相關度,濾除語義相關度度小于設定閾值的擴展詞,生成第二擴展詞集。
優選地,根據所述檢索請求,判斷用戶的檢索意圖包括:
判斷所述關鍵詞列表中是否存在動態參數,若是,則根據所述動態參數,判斷用戶的檢索意圖,得到用戶的第一檢索意圖y1;
若否,則根據所述關鍵詞列表中詞匯之間的關聯關系,判斷用戶的檢索意圖,得到用戶的第二檢索意圖y2;
根據第一檢索意圖y1及第二檢索意圖y2,確定最終的用戶檢索意圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京神舟航天軟件技術有限公司,未經北京神舟航天軟件技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911344526.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種蘇打鹽堿地改良劑及改良方法
- 下一篇:戰斗策略生成方法及裝置





