[發(fā)明專利]使用語法單元的文檔搜索在審
| 申請?zhí)枺?/td> | 201811039364.5 | 申請日: | 2018-09-06 |
| 公開(公告)號: | CN110020032A | 公開(公告)日: | 2019-07-16 |
| 發(fā)明(設計)人: | D·辛加爾;R·T·A·文卡塔;T·帕特爾;A·穆克赫杰;A·納塔拉杰 | 申請(專利權)人: | 奧多比公司 |
| 主分類號: | G06F16/93 | 分類號: | G06F16/93;G06F17/27 |
| 代理公司: | 北京市金杜律師事務所 11256 | 代理人: | 酆迅;辛鳴 |
| 地址: | 美國加利*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語法單元 文檔 文檔搜索 接收查詢 用戶界面 搜索 查詢 申請 應用 | ||
本申請的各實施例涉及使用語法單元的文檔搜索。用于在文檔內搜索的系統(tǒng)和技術包括通過應用的用戶界面并且結合至少一個文檔的標識來接收查詢。可以提取表征文檔的每個語法單元與查詢的相關性的特征值。可以基于每個語法單元的每個特征值來對語法單元排名。然后,可以基于排名來顯示多個語法單元中的至少一個選擇的語法單元。
技術領域
本說明書涉及數(shù)字文檔內的基于計算機的搜索。
背景技術
計算機和相關聯(lián)的數(shù)據(jù)存儲庫能夠提供對大量潛在冗長文檔和其他內容的訪問。給定這樣的潛在大量信息,用戶在可用時間范圍內找到期望的信息變得困難、低效、耗時或不可能。
一些搜索技術依賴于匹配字符的串,諸如單詞內的字母。例如,用戶可以通過鍵入期望的單詞來錄入針對文檔內的特定單詞的搜索,于是搜索引擎或系統(tǒng)可以執(zhí)行針對錄入的單詞的搜索。在實踐中,這種方式容易出現(xiàn)誤報和漏報。例如,搜索公共單詞可能會返回大量結果,其中很多結果將是不感興趣的。另一方面,這樣的搜索甚至可能從相關文檔或文檔部分返回空結果集,僅僅因為沒有找到確切的字符串(諸如當被搜索的文檔使用要搜索單詞的同義詞時而不是這個單詞本身時)。
此外,在從很多文檔中搜索文檔(諸如針對在線文檔的基于web的搜索)時有用的技術可能當在單個文檔內進行搜索時不是有用的或相關的。例如,一些基于web的搜索依賴于對到來自鏈接的文檔內的文檔的超鏈接的檢查,以便獲取期望的搜索結果,這對于在一個或多個已知文檔內搜索不太可能是足夠有用的。
發(fā)明內容
根據(jù)一個總體方面,描述了用于在至少一個文檔內進行搜索的系統(tǒng)和技術,包括通過應用的用戶界面結合至少一個文檔的標識來接收查詢,至少一個文檔使用計算機存儲器而被存儲,以及標識至少一個文檔內的多個語法單元。系統(tǒng)和技術可以包括關于查詢、針對每個語法單元提取用于至少一個特征的值,至少一個特征值表征每個語法單元與查詢的相關性,基于每個語法單元的每個特征值對語法單元排名,以及基于排名通過用戶界面并且結合至少一個文檔來顯示多個語法單元中的至少一個選擇的語法單元。
根據(jù)另一總體方面,描述了用于以下各項的系統(tǒng)和技術:接收關于至少一個文檔的查詢,標識至少一個文檔內的句子,并且提取表征句子中的每個句子與查詢的相關性的多個特征。句子可以基于特征而被排名,并且句子可以按照與排名相對應的順序在文檔內在視覺上被指定。
在附圖和以下描述中闡述了一個或多個實現(xiàn)方式的細節(jié)。根據(jù)說明書和附圖以及根據(jù)權利要求,其他特征將是清楚的。
附圖說明
圖1是用于使用語法單元的文檔搜索的系統(tǒng)的框圖;
圖2是示出使用圖1的系統(tǒng)的、用于使用語法單元的文檔搜索的應用的用戶界面的示例屏幕截圖;
圖3是示出圖1的系統(tǒng)的示例操作的流程圖;以及
圖4是圖1的系統(tǒng)的更詳細的示例實現(xiàn)方式的框圖和相關聯(lián)的操作流程。
具體實施方式
本文檔描述了在文檔或文檔的集合內提供自動搜索的系統(tǒng)和技術。這樣的系統(tǒng)和技術克服了先前的系統(tǒng)和技術的技術挑戰(zhàn),并且改進了執(zhí)行這樣的自動處理的過程。例如,從應用內,可以提交查詢并且可以關于標識的文檔內的語法單元(諸如短語、子句或句子)的內容執(zhí)行搜索,而不是執(zhí)行文檔項和查詢項的基于串的匹配。由應用使用的基于語法單元(也被稱為基于單元的)文檔搜索模塊是比依賴于串匹配的其他算法或其他已知搜索技術更有效、更快速、更準確的算法。此外,基于單元的文檔搜索模塊提供短語、字句或句子的新的計算機功能(例如,請求和查找),即使當短語、字句或句子不包含在查詢中被使用的確切項時,并且基于單元的文檔搜索模塊提供基于每個指定類型的語法單元關于每個查詢的排名的相關性來返回搜索結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于奧多比公司,未經奧多比公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811039364.5/2.html,轉載請聲明來源鉆瓜專利網。





