[發明專利]一種利用語義分析的垂直搜索引擎系統與方法有效
| 申請號: | 201010132348.8 | 申請日: | 2010-03-25 |
| 公開(公告)號: | CN102200975A | 公開(公告)日: | 2011-09-28 |
| 發明(設計)人: | 晉耀紅 | 申請(專利權)人: | 北京師范大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京萬科園知識產權代理有限責任公司 11230 | 代理人: | 杜澄心;張亞軍 |
| 地址: | 100875 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 利用 語義 分析 垂直 搜索引擎 系統 方法 | ||
1.一種利用語義分析技術實現垂直搜索引擎的方法,其特征在于,采用以句為單位的語義分析技術,提取文本中每個句子所表示的語境屬性,并對語境屬性進行切分標注;在索引時,為每種類型的語境屬性單獨建立索引;在檢索時,可以對不同語境屬性進行獨立檢索,也可以進行組合檢索。
2.一種利用語義分析技術實現垂直搜索引擎的系統,其特征在于它包括:負責對文本進行分析,提取文本中的語境屬性,形成帶語境屬性的標注文本的文本語義分析模塊;負責調用文本語義分析模塊,并根據分析結果,為待索引文本,在索引庫中建立索引的索引系統模塊;負責接收用戶的搜索請求,對請求進行解析,從索引庫中檢索到相應的結果,對結果進行合并和相關度計算,并返回給用戶的檢索系統模塊;文本語義分析模塊包含一個在管理員配置垂直搜索引擎時,根據所屬的行業和領域的特點,所定義的文本語境屬性的分類標準的本體定義模塊、一個根據本體定義模塊,對待索引文檔進行分析,提取文檔中每個句子的語境屬性模塊,并把語境屬性標注到原始文檔中,形成帶語境屬性的標注文本。
3.根據權利要求2所述的一種利用語義分析技術實現垂直搜索引擎的系統,其特征在于,所述的文本語義分析模塊,以句子為單位,對文本中的每個句子進行語境屬性提取;提取的依據是以xml形式表示,定義了本體所屬的領域或行業、描述、定義者和定義時間,同時定義了多組語境屬性SemProp;提取過程中,綜合了三方面的因素:特征詞出現的次數、特征詞的概念屬性(動詞、抽象概念、具體概念)加權,以及特征詞在句子中的語義地位加權;在所述的多組語境屬性SemProp中,每個語境屬性<SemProp>中有<name>表示屬性名稱,<tag>表示標注在文本中的標簽,還有<Character>表示該屬性的特征詞,特征詞可以有多個,之間用逗號隔開。
4.根據權利要求3所述的一種利用語義分析技術實現垂直搜索引擎的系統,其特征在于,所述文本語義分析模塊包括以下步驟:
步驟21中,把文本以句號為單位斷開,對每個句子進行處理;
步驟22中,判斷當前句子是否已經到文本末尾;如果是,則轉步驟29;否則轉步驟23;
步驟23中,調用句子語境屬性提取模塊,提取句子的語境屬性SemPropN;
步驟24中,判斷當前句子提取的屬性SemPropN是否是該文本的第一個屬性;如果是,則轉步驟25;否則轉步驟26;
步驟25中,在文本的起始處設置屬性開始標志<SemPropN>;轉步驟21進行下一句處理;
步驟26中,判斷當前提取的屬性SemPropN和該文本的上一個屬性SemPropN-1是否一樣;如果是,則轉步驟21進行下一句處理;否則轉步驟27;
步驟27中,在當前句子之前,設置上一個屬性的結束標志</SemPropN-1>;
步驟28中,在當前句子之前,設置當前屬性的開始標志<SemPropN>;轉步驟21進行下一句處理;
步驟29中,在文本末尾處設置最后一個屬性的結束標志</SemPropN>;
步驟210中,輸出帶屬性標志的標注文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京師范大學,未經北京師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010132348.8/1.html,轉載請聲明來源鉆瓜專利網。





