[發明專利]本體親和度矩陣的有效計算無效
| 申請號: | 201010117358.4 | 申請日: | 2010-02-12 |
| 公開(公告)號: | CN101807201A | 公開(公告)日: | 2010-08-18 |
| 發明(設計)人: | 斯特吉奧斯·斯特吉奧;賈瓦哈拉·賈殷;雅納斯·郎布羅 | 申請(專利權)人: | 富士通株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京三友知識產權代理有限公司 11127 | 代理人: | 李輝 |
| 地址: | 日本神奈*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 本體 親和 矩陣 有效 計算 | ||
技術領域
本發明總體上涉及詞典(lexigraphical)分析,更具體來講,涉及本體親和度矩陣(ontology?affinity?matrix)的有效計算。
背景技術
本申請要求Stergios?Stergiou等人在2009年2月13日提交的名為“Efficient?Computation?of?Automated?Ontology?Affinity?Matrices”的美國臨時申請No.61/152,375的優先權。以引證方式將該專利中請并入于此。
文檔集合中的數據可能具有大量信息,然而查找相關信息可能比較困難。關鍵詞搜索是查找信息的主要技術。然而,在特定情況下,關鍵詞搜索在信息定位方面并不是有效的。
發明內容
本發明的一個方面提供了一種方法,該方法包括以下步驟:對包括多個反向索引列表的反向索引進行訪問,每個反向索引列表對應于一個術語,每個反向索引列表包括該術語的術語標識符和一個或更多個文檔標識符,所述一個或更多個文檔標識符指示了文檔集合中的出現所述術語的一個或更多個文檔;對多個有序對進行組織,各有序對包括反向索引列表的術語標識符和文檔標識符,所述組織步驟首要地基于所述有序對的所述文檔標識符;以及根據所述反向索引生成術語標識符索引,所述術語標識符索引包括多個片段,每個片段對應于一個文檔,每個片段包括所述文檔中出現的一個或更多個術語的一個或更多個術語標識符,根據所述反向索引生成所述術語標識符索引的步驟包括以下步驟:對所述術語標識符索引的所述片段中的有序對的術語標識符進行組織。
本發明的第二方面提供了一種裝置,所述裝置包括:存儲器,所述存儲器能操作用于進行如下操作:存儲包括多個反向索引列表的反向索引,每個反向索引列表對應于一個術語,每個反向索引列表包括該術語的術語標識符和一個或更多個文檔標識符,所述一個或更多個文檔標識符指示了文檔集合中的出現所述術語的一個或更多個文檔;以及處理器,所述操作器能操作用于執行邏輯,以進行如下操作:對多個有序對進行組織,各有序對包括反向索引列表的術語標識符和文檔標識符,所述組織操作首要地基于所述有序對的所述文檔標識符;以及根據所述反向索引生成術語標識符索引,所述術語標識符索引包括多個片段,每個片段對應于一個文檔,每個片段包括所述文檔中出現的一個或更多個術語的一個或更多個術語標識符,根據所述反向索引生成所述術語標識符索引的操作包括以下操作:對所述術語標識符索引的所述片段中的有序對的術語標識符進行組織。
本發明的第三方面提供了一種有形計算機可讀介質,所述有形計算機可讀介質具有計算機可執行代碼,并且當所述計算機可執行代碼由計算機執行時能夠進行如下操作:對包括多個反向索引列表的反向索引進行訪問,每個反向索引列表對應于一個術語,每個反向索引列表包括該術語的術語標識符和一個或更多個文檔標識符,所述一個或更多個文檔標識符指示了文檔集合中的出現所述術語的一個或更多個文檔;對多個有序對進行組織,各有序對包括反向索引列表的術語標識符和文檔標識符,所述組織操作首要地基于所述有序對的所述文檔標識符;以及根據所述反向索引生成術語標識符索引,所述術語標識符索引包括多個片段,每個片段對應于一個文檔,每個片段包括所述文檔中出現的一個或更多個術語的一個或更多個術語標識符,根據所述反向索引生成所述術語標識符索引的操作包括以下操作:對所述術語標識符索引的所述片段中的有序對的術語標識符進行組織。
附圖說明
圖1例示了由語言的單詞間的關系生成語言本體的系統的實施方式;
圖2例示了記錄基本關系的親和度矩陣的一個示例;
圖3例示了記錄方向關系的親和度矩陣的一個示例;
圖4例示了記錄平均關系的親和度矩陣的一個示例;
圖5例示了可以由圖1中的系統執行的語言的本體的產生方法的一個實施方式;
圖6例示了反向索引的一個示例;以及
圖7例示了可以由圖6中的反向索引形成的示例性數據結構和術語(term)標識符索引。
具體實施方式
概述
在一個實施方式中,本體生成包括對反向索引的訪問,該反向索引包含語言的術語的反向索引列表。與一個術語相對應的反向索引列表指示了文檔集合中哪些文檔包含該術語。根據反向索引來創建本體親和度矩陣。本體親和度矩陣具有多個條目,這些條目包括術語對的親和度。
在具體實施方式中,領域(domain)本體的創建及查詢可以包括以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士通株式會社,未經富士通株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010117358.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:記錄裝置及記錄裝置的控制方法
- 下一篇:信息處理設備和控制方法





