[發明專利]創建索引的方法和設備在審
| 申請號: | 202210237350.4 | 申請日: | 2016-12-21 |
| 公開(公告)號: | CN114528369A | 公開(公告)日: | 2022-05-24 |
| 發明(設計)人: | 代洪濤;張磊;黃坤武;陳超;劉晶晶 | 申請(專利權)人: | 伊姆西IP控股有限責任公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/93;G06F16/951 |
| 代理公司: | 北京市金杜律師事務所 11256 | 代理人: | 姚杰 |
| 地址: | 美國馬*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 創建 索引 方法 設備 | ||
本公開的實施例總體上涉及創建索引的方法和設備。例如,本公開的實施例提出了一種用于創建索引的方法,包括:將文檔劃分成多個區域;確定詞元在所述多個區域中出現的次數,所述詞元包括所述文檔中的至少一個字符;基于所述多個區域與所述文檔的相關性,向所述多個區域指派相應的權重;以及基于所述詞元在所述多個區域中出現的所述次數和所述多個區域的所述相應的權重,創建針對所述詞元的文檔倒排鏈表。
本申請是申請號為201611194037.8、申請日為2016年12月21日、發明名稱為“創建索引的方法和設備”的發明專利申請的分案申請。
技術領域
本公開的實施例總體涉及文檔索引,具體地涉及創建索引的方法和設備。
背景技術
目前的企業搜索引擎大多數是基于倒排索引架構。倒排索引被用于存儲在全文索引下某個詞元(token)在文檔或文檔集中的存儲位置的映射。在此使用的術語“詞元”包括文檔或文檔集中的至少一個字符,諸如字母、單詞、詞組,等等。在進行搜索時,會對包含詞元的所有文檔進行搜索。
然而,這種搜索所面臨的最大問題是搜索效率和精度。可以理解,對于每個詞元,可能存在包含該詞元的大量文檔。反之,在一個文檔中,每個詞元可能出現數次。傳統的全文搜索引擎解決方案是對文檔中的各區域指派相同的權重。這極大地降低了搜索效率和精度,因為出現在文檔中重要部分(例如,題目、摘要和/或關鍵字)的詞元通常表示該文檔所涉及的內容。
發明內容
為了至少部分地解決上述以及其他潛在的問題,本公開的實施例提供了創建索引的方法和設備。
在本公開的第一方面,提供了一種創建索引的方法。該方法可以包括:將文檔劃分成多個區域;確定詞元在多個區域中出現的次數,詞元包括文檔中的至少一個字符;向多個區域指派相應的權重;以及基于詞元出現在多個區域中的次數以及多個區域的相應權重,創建針對詞元的文檔倒排鏈表。
在某些實施例中,將文檔劃分成多個區域可以包括:基于文檔的架構將文檔劃分成選自如下組的多個區域:題目、摘要、關鍵字、正文和/或參考文獻。
在某些實施例中,向多個區域指派相應的權重可以包括:基于多個區域與文檔的相關性,向多個區域指派相應的權重。
在某些實施例中,創建針對詞元的文檔倒排鏈表可以包括:為詞元創建詞元位置列表,詞元位置列表包括詞元在文檔中出現的位置以及相應的權重;以及通過累加相應的權重,創建針對詞元的文檔倒排鏈表。在某些實施例中,權重可以存儲在詞元位置列表的凈荷字段中。
在某些實施例中,創建針對詞元的文檔倒排鏈表可以包括:為多個區域創建詞元位置列表,詞元位置列表包括詞元出現在多個區域中的位置;以及通過將詞元出現在多個區域中的次數與相應區域的權重的乘積進行累加,創建針對詞元的文檔倒排鏈表。
在某些實施例中,還可以包括:修改指派給多個區域的權重中的至少一個權重。
在本公開的第二方面,提供了一種創建索引的設備。該設備可以包括至少一個處理單元和至少一個存儲器。至少一個存儲器可以被耦合到至少一個處理單元并且存儲由至少一個處理單元執行的指令。當該指令由至少一個處理單元執行時,可以使得設備:將文檔劃分成多個區域;確定詞元在多個區域中出現的次數,詞元包括文檔中的至少一個字符;向多個區域指派相應的權重;以及基于詞元出現在多個區域中的次數以及多個區域的相應權重,創建針對詞元的文檔倒排鏈表。
根據本公開的第三方面,提供了計算機程序產品。該計算機程序產品可以被有形地存儲在非瞬態計算機可讀介質上并且包括機器可執行指令。機器可執行指令可以在被執行時使得機器執行根據本公開的第一方面所描述的方法的任意步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于伊姆西IP控股有限責任公司,未經伊姆西IP控股有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210237350.4/2.html,轉載請聲明來源鉆瓜專利網。





