[發明專利]一種利用語義分析的垂直搜索引擎系統與方法有效

申請號：	201010132348.8	申請日：	2010-03-25
公開（公告）號：	CN102200975A	公開（公告）日：	2011-09-28
發明（設計）人：	晉耀紅	申請（專利權）人：	北京師范大學
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	北京萬科園知識產權代理有限責任公司 11230	代理人：	杜澄心;張亞軍
地址：	100875 北***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種利用語義分析垂直搜索引擎系統方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種利用語義分析技術實現垂直搜索引擎的方法，其特征在于，采用以句為單位的語義分析技術，提取文本中每個句子所表示的語境屬性，并對語境屬性進行切分標注；在索引時，為每種類型的語境屬性單獨建立索引；在檢索時，可以對不同語境屬性進行獨立檢索，也可以進行組合檢索。

2.一種利用語義分析技術實現垂直搜索引擎的系統，其特征在于它包括：負責對文本進行分析，提取文本中的語境屬性，形成帶語境屬性的標注文本的文本語義分析模塊；負責調用文本語義分析模塊，并根據分析結果，為待索引文本，在索引庫中建立索引的索引系統模塊；負責接收用戶的搜索請求，對請求進行解析，從索引庫中檢索到相應的結果，對結果進行合并和相關度計算，并返回給用戶的檢索系統模塊；文本語義分析模塊包含一個在管理員配置垂直搜索引擎時，根據所屬的行業和領域的特點，所定義的文本語境屬性的分類標準的本體定義模塊、一個根據本體定義模塊，對待索引文檔進行分析，提取文檔中每個句子的語境屬性模塊，并把語境屬性標注到原始文檔中，形成帶語境屬性的標注文本。

3.根據權利要求2所述的一種利用語義分析技術實現垂直搜索引擎的系統，其特征在于，所述的文本語義分析模塊，以句子為單位，對文本中的每個句子進行語境屬性提取；提取的依據是以xml形式表示，定義了本體所屬的領域或行業、描述、定義者和定義時間，同時定義了多組語境屬性SemProp；提取過程中，綜合了三方面的因素：特征詞出現的次數、特征詞的概念屬性(動詞、抽象概念、具體概念)加權，以及特征詞在句子中的語義地位加權；在所述的多組語境屬性SemProp中，每個語境屬性<SemProp>中有<name>表示屬性名稱，<tag>表示標注在文本中的標簽，還有<Character>表示該屬性的特征詞，特征詞可以有多個，之間用逗號隔開。

4.根據權利要求3所述的一種利用語義分析技術實現垂直搜索引擎的系統，其特征在于，所述文本語義分析模塊包括以下步驟：

步驟21中，把文本以句號為單位斷開，對每個句子進行處理；

步驟22中，判斷當前句子是否已經到文本末尾；如果是，則轉步驟29；否則轉步驟23；

步驟23中，調用句子語境屬性提取模塊，提取句子的語境屬性SemPropN；

步驟24中，判斷當前句子提取的屬性SemPropN是否是該文本的第一個屬性；如果是，則轉步驟25；否則轉步驟26；

步驟25中，在文本的起始處設置屬性開始標志<SemPropN>；轉步驟21進行下一句處理；

步驟26中，判斷當前提取的屬性SemPropN和該文本的上一個屬性SemPropN-1是否一樣；如果是，則轉步驟21進行下一句處理；否則轉步驟27；

步驟27中，在當前句子之前，設置上一個屬性的結束標志</SemPropN-1>；

步驟28中，在當前句子之前，設置當前屬性的開始標志<SemPropN>；轉步驟21進行下一句處理；

步驟29中，在文本末尾處設置最后一個屬性的結束標志</SemPropN>；

步驟210中，輸出帶屬性標志的標注文本。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。