[發明專利]基于文檔的語義豐富度對文檔進行排名有效
| 申請號: | 201880065760.7 | 申請日: | 2018-10-19 |
| 公開(公告)號: | CN111194442B | 公開(公告)日: | 2023-07-25 |
| 發明(設計)人: | M·克魯德爾;A·佩龍 | 申請(專利權)人: | 國際商業機器公司 |
| 主分類號: | G06F16/338 | 分類號: | G06F16/338 |
| 代理公司: | 北京市金杜律師事務所 11256 | 代理人: | 酆迅 |
| 地址: | 美國紐*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 文檔 語義 豐富 進行 排名 | ||
提出了一種用于在計算系統中對多個文檔進行排名的解決方案,每個文檔包括多個文檔術語。一種對應的方法包括:接收包括一個或多個查詢術語的查詢用于選擇文檔,計算查詢與文檔之間的對應相似性索引,每個相似性索引是根據查詢術語與對應文檔的文檔術語之間的比較來計算的,確定文檔的對應語義豐富度指示符,根據對應語義豐富度指示符來調整相似性索引,以及根據調整的對應相似性索引對文檔的至少一部分進行排名以供其選擇。
背景技術
下文對與本發明的上下文相關的技術的論述來引入本發明的背景。然而,即使當該討論涉及文檔、動作、人工制品等時,它也不暗示或表示所討論的技術是現有技術的一部分或者是與本公開相關的領域中的公知常識。
本公開涉及信息技術領域。更具體地,本公開涉及文件的排名。
在用于選擇可能與任何特定需求相關的文檔的計算系統中,文檔的排名是常見的;典型的例子是在信息檢索(IR)的上下文中,其中排名被用于促進識別與不同主題相關的文檔(例如由搜索引擎識別的因特網中的網頁)。實際上,相關文檔的選擇是經驗性質的活動,因為不可能在數學上證明任何文檔比另一個更相關;因此,文檔的排名被用于估計其相關性,然后相應地對文檔進行排名或分類(例如,用于由人類用戶對其進行手動選擇)。
通常,排名應用于文檔的語料庫(或集合),其由大量文檔形成,每個文檔包括一系列術語(例如,單詞)。用于選擇期望文檔的查詢包括被認為表征它們的一個或多個術語(例如,由用戶提交給搜索引擎)。根據查詢的術語與文檔的術語之間的比較來計算每個文檔的相似性索引。然后,根據文檔的相似性索引對文檔進行排名,以便選擇期望的那些(例如,通過按照其相似性索引的降序向用戶返回最相關頁面的列表,以便手動選擇實際感興趣的那些)。
用于對文檔進行排行的普遍技術是基于向量空間模型(VSM)。簡言之,在VSM技術中,每個文檔和每個查詢簡單地根據它們的術語和它們的出現來索引。然后,文檔和查詢由多維空間(由公共詞匯表的術語定義)中的對應向量表示;如果每個維度的術語存在于文檔/查詢中,則其值被設置為相應的術語權重。例如,根據rf-idf加權方案來定義術語權重;特別地,每個術語的術語權重被設置為(文檔/查詢中的術語的)術語頻率tf與(文檔語料庫中的術語的)反向文檔頻率idf的乘積。然后根據文檔向量的角度差計算文檔相對于查詢的相似性索引;這樣,相似性索引取決于常見的術語,從而給予重復的(根據它們的術語頻率)和/或稀少的(根據它們的反向文檔頻率)術語更大的重要性。
任何排名技術的質量取決于其能夠多好地選擇實際相關的文檔(由排名在最頂部的文檔所標識的)。例如,精確度(由相對于所選文檔的總數而選擇的相關文檔來定義)應當盡可能高;實際上,期望限制與信息需要不相關的(不相關的)文檔,即假陽性結果(理想地選擇非相關文檔)。同時,召回率(由相對于相關文檔的總數而選擇的相關文檔來定義)應當盡可能高;實際上,希望限制未被選擇的相關文檔,即假陰性結果(理想地選擇所有相關文檔)。更簡單地,排名技術應當能夠選擇一些相關文檔;例如,當將排名技術應用于瀏覽范例時,基于對所選文檔的相關性的快速檢查,這些所選文檔可能導致或可能不導致對所選文檔的更深檢查的(諸如當搜索因特網中的頁面時);實際上,在這種情況下,只要至少一些所選文檔是相關的,則查準率和查全率可能不太重要。
低質量的排名可能不利地影響計算系統的性能。特別地,選擇一些相關文檔的低查準率和召回率或者簡單地低概率可能需要提交一個或多個附加查詢以找到實際相關的文檔。這些附加查詢涉及計算系統的資源的相應附加消耗(例如,用于服務附加查詢的計算能力、用于接收附加查詢并返回其結果的網絡流量)。
發明內容
在此提出本公開的簡化概述以便提供對本公開的基本理解;然而,本發明內容的唯一目的是以簡化形式引入本公開的一些概念作為其以下更詳細描述的序言,并且其不應被解釋為其關鍵元件的標識或其范圍的描繪。
概括地,本公開基于根據文檔的語義豐富度對文檔進行排名的思想。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業機器公司,未經國際商業機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201880065760.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電子控制裝置
- 下一篇:用于在網絡中使用的流控制系統





