[發明專利]基于查詢令牌密度對電子文檔進行排序的系統和方法在審
| 申請號: | 202080046123.2 | 申請日: | 2020-04-23 |
| 公開(公告)號: | CN114175012A | 公開(公告)日: | 2022-03-11 |
| 發明(設計)人: | D·羅森諾夫;K·于 | 申請(專利權)人: | 雷克斯股份有限公司 |
| 主分類號: | G06F16/2457 | 分類號: | G06F16/2457;G06F16/242;G06F16/93;G06F16/33 |
| 代理公司: | 上海專利商標事務所有限公司 31100 | 代理人: | 張鑫 |
| 地址: | 美國俄*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 查詢 令牌 密度 電子 文檔 進行 排序 系統 方法 | ||
一種包括搜索引擎的系統,搜索引擎被配置為:基于搜索查詢和搜索查詢語境確定搜索結果,從搜索查詢中提取查詢令牌,確定每個搜索結果文檔內的(多個)查詢令牌命中集,每個查詢令牌命中集包括在所定義的接近度范圍內的中心定位的查詢令牌的所定義的接近度范圍內的(多個)查詢令牌命中,為每個文檔內的每個查詢令牌命中集確定每個查詢令牌命中和中心定位的查詢令牌之間的查詢令牌密度值(QTDV),每個QTDV基于每個查詢令牌命中和中心定位的查詢令牌之間的距離,為每個查詢令牌命中集確定查詢令牌密度分數(QTDS),為每個文檔確定文檔密度分數(DDS),基于DDS對搜索結果內的每個文檔進行排序或重新排序,以及將經排序/重新排序的搜索引擎結果頁面傳送以呈現。
相關申請的交叉引用
本公開要求于2019年4月23日提交的題為“SYSTEMS AND METHODS FOR RANKINGELECTRONIC DOCUMENTS BASED ON QUERY TOKEN DOCUMENT DENSITIES(基于查詢令牌文檔密度對電子文檔進行排序的系統和方法)”的美國臨時專利申請第62/837,428號的優先權,其全部內容通過引用并入本文。
背景
技術領域
本公開總體上涉及電子文檔搜索的領域。更具體地,所公開的實施例涉及用于電子文檔搜索的計算機化系統和方法,這些系統和方法通過相關性對搜索結果進行排序、重新排序和/或測量。
背景技術
用戶通常利用搜索引擎搜索查詢來得到問題的快速回答。不幸的是,用戶通常需要在與他們的查詢相關的文檔被展示(reveal)之前,對多個不相關的搜索結果進行篩選。布爾運算子的使用通常使問題更復雜。如果在搜索查詢中使用布爾運算子,則不當地使用布爾運算符可能不期望地從總的搜索結果中忽略材料文檔。因此,用戶可能選擇在搜索查詢中輸入自然語言。然而,常規的自然語言搜索算法可在破譯相對較長的多詞自然語言查詢、包括多個概念(例如,相關的和/或不同的)的自然語言查詢、包括混合搜索模式(例如,自然語言搜索和實體搜索)的自然語言查詢以及包括語料庫中統計上常見的(例如,特定于域的)項的自然語言查詢方面存在問題。示范此類問題的說明性搜索查詢包括:“挪用欺詐(fraud by misappropriation)”、“起訴不成立的動議(motion to dismiss)”、“接受為真(accepted as true)”、“第二DCA(2nd DCA)”、“對私人雇主的私人訴因憲法權利(privatecause of action Constitutional right to privacy employer)”、“什么法規要求將委托書記錄在運輸法中?(What statute requires a power of attorney to be recordedconveyances act?)”等。此類問題可以進一步將材料文檔“掩埋”在多個不相關的搜索結果中,從而使得根本不快地呈現用戶的回答。
相關的問題是如何充分地測量搜索結果的相關性。雖然這個問題對于測量特定算法響應于具體查詢返回的具體文檔的客觀效用至關重要,但計算搜索相關性的方法相對較少,每種方法都受到具體假設、優勢和/或劣勢的制約。因此,極其需要一種提高搜索相關性測量技術水平的可靠新方法。
因此,需要基于搜索查詢搜索項的用于排序、重新排序和/或測量搜索結果的改進算法來改進搜索引擎結果集。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于雷克斯股份有限公司,未經雷克斯股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202080046123.2/2.html,轉載請聲明來源鉆瓜專利網。





