[發明專利]大型數據庫中語義搜索的方法和系統在審

申請號：	201880066512.4	申請日：	2018-10-09
公開（公告）號：	CN111213140A	公開（公告）日：	2020-05-29
發明（設計）人：	貝拉·洛蘭·科瓦奇斯;阿科斯·賈格	申請（專利權）人：	尼根特羅匹克斯軟件有限公司
主分類號：	G06F16/35	分類號：	G06F16/35;G06F16/33
代理公司：	北京中博世達專利商標代理有限公司 11274	代理人：	王皓
地址：	匈牙利***	國省代碼：	暫無信息
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	大型數據庫語義搜索方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明提供一種在源文檔數據庫中執行語義搜索的計算機實施的方法，所述源文檔數據庫包含由唯一的文檔標識符標識的文檔，所述方法包括：讀取包含文本的查詢的文本組件；使用預定義的特征提取模型，從查詢的文本組件中生成查詢特征集合；基于多個查詢特征生成訓練特征集合；利用訓練特征、和使用預定義特征提取模型從源文檔的至少一部分中獲取的文檔特征集合，將可訓練的分類器進行訓練；根據預定義的選擇方案選擇用于分類的多個源文檔；獲取經選擇文檔的特征；通過使用經選擇文檔的特征，將經選擇源文檔分類為不同的相關性類別，其中至少一個相關性值與各經選擇文檔相關聯；基于經分類文檔的至少一個相關聯的相關性值，將經分類文檔排序成有序列表；和將經排序文檔的標識符的有序列表存儲在計算機可讀內存中。

技術領域

本公開一般地涉及自然語言處理，且更具體地，涉及通過使用語義搜索引擎在大型文檔數據庫中搜索內容。

背景技術

對在電子文檔或基于紙質的文檔中查找特定內容的需求日益增長，并且由于引入了電子文檔的生成、存儲和分發，或使此類文檔可用于有限或無限數量的用戶，因此可以在萬維網(“網絡”或“互聯網”)和其他內部網上以電子形式訪問數量不斷增加的文檔。即使使用具有適當搜索工具的計算機，對于具有特定內容的文檔，文檔檢索和搜索也可能是非常耗時的任務。

文檔US 7,249,121公開了用于從搜索查詢中標識語義單元的各種方法和系統。用于搜索語料庫的搜索引擎通過將搜索查詢中的多個術語分類為單個語義單元來改進結果的相關性。搜索引擎的語義單元定位器(locator)基于查詢中的各個術語來生成通常與查詢相關的文檔子集。然后，針對文檔子集來評估定義來自查詢的潛在語義單元的搜索術語組合，以確定哪些搜索術語組合應該被分類為語義單元。所得的語義單元用于改善搜索結果。盡管此解決方案提供了對與語義上有意義的(semantically meaningful)文本單元相對應的復合詞(compound)的更準確的標識，但是它仍然具有缺點：相關文檔的集合是以直截了當的方式、即基于查詢關鍵詞或關鍵文本的各個子集與語料庫的索引的比較來確定的。

當前的搜索引擎無法有效地搜索大型文檔數據庫。在許多情況下，由于需要解析大量文本，因此文檔數據庫搜索麻煩、費時、且低效利用有限的處理器資源。另外，許多當前的搜索引擎無法以有意義或動態的順序對結果進行排序。

由于跨多個平臺和多種數字格式的數字數據的分散性增加，因此本領域需要提供更有效地利用處理器時間和資源的語義搜索技術，并進一步改進結果集合相對于由查詢實體(querying entity)搜索的基于文本的內容的相關性。通過結果的相關性的改進，相對于傳統的語義搜索引擎，特定內容搜索需要更少數量的搜索查詢，這因此減少了使用如互聯網或內部網的服務數據通信網絡來執行的搜索的帶寬需求。

發明內容

公開的實施方案提供了用于使用電子令牌和令牌化設備來管理電子事務(electronic transaction)的系統和方法。本發明尤其提供了根據權利要求1的計算機實施的方法、根據權利要求11的處理系統、根據權利要求14的計算機可讀介質和根據權利要求15的系統。優選的實施方案在從屬權利要求中列出。

由于源文檔和查詢文本的非常緊湊的表示，因此本語義搜索引擎解決方案的內存(memory)和存儲(storage)需求明顯低于已知語義搜索引擎的內存和存儲需求。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于尼根特羅匹克斯軟件有限公司，未經尼根特羅匹克斯軟件有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201880066512.4/2.html，轉載請聲明來源鉆瓜專利網。