[發明專利]一種利用語義分析的垂直搜索引擎系統與方法有效
| 申請號: | 201010132348.8 | 申請日: | 2010-03-25 |
| 公開(公告)號: | CN102200975A | 公開(公告)日: | 2011-09-28 |
| 發明(設計)人: | 晉耀紅 | 申請(專利權)人: | 北京師范大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京萬科園知識產權代理有限責任公司 11230 | 代理人: | 杜澄心;張亞軍 |
| 地址: | 100875 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 利用 語義 分析 垂直 搜索引擎 系統 方法 | ||
技術領域
本發明涉及搜索引擎系統,更具體地說,涉及一種語義分析技術,以及利用該語義分析技術實現的垂直搜索引擎系統與方法。
背景技術
搜索引擎已經成為人們獲取信息的重要手段,它現在已經取代門戶網站,成為人們上網的首選入口。
目前搜索引擎所采用的技術,基本是以全文檢索為主的。其一般原理就是利用倒排文件的技術,將待搜索的文字文本建立索引,然后利用關鍵詞匹配的檢索技術,從索引庫中,把包含相關關鍵詞的內容返回給用戶。關鍵詞檢索技術一般利用詞頻等統計信息計算索引庫中的文檔和關鍵詞的相關度,然后按照相關度排序的方式給出包含這些關鍵詞的文檔。這種技術把關鍵詞當做一個字符串進行統計處理,基本上沒有考慮關鍵詞本身的語義和關鍵詞所在的語言環境。
隨著搜索引擎的普及,人們對搜索引擎的期望也越來越高,把自然語言處理的技術,特別是語義處理技術融合到搜索引擎中,成為搜索引擎的發展趨勢。也有很多企業在做各種積極的嘗試。美國powerset搜索引擎,在引擎中增加了語法分析,考慮了主謂賓的因素,能區分“A打敗B”和“B打敗A”是兩種不同的請求。Powerset只針對wikipedia進行了搜索,沒有提供互聯網全網搜索。Powerset已被微軟公司收購。美國的hakia搜索引擎,利用施樂公司的自然語言處理技術,能對同義、泛化等現象進行處理。Congnition搜索引擎能搜索wiki、法律、健康等內容,它在搜索時能區分每個詞不同的詞義,可以根據詞義選擇搜索結果。Silobreaker在關系搜索上做了一些探索,surfcanon在消除主流搜索引擎(比如google)的搜索結果上做了一些嘗試,能對搜索結果的相關性進行調整。Swotti在產品評價上,能對評價進行分級,并分析出積極消極因素。Jodange在觀點提取方面做了一些工作,能提取在特定議題上擁有影響力的人物,監測他們的觀點如何隨時間的推移而轉變,以及他們如何推動媒體及公眾的情緒變化。另外,W3C也在推動語義網的研究,希望能對互聯網的內容加上語義標簽,但總體來說,語義網還處在研究階段。
可以看出,目前的研究基本還處在詞語層面和語法層面(powerset、hakia、congnition等),或者針對某一方面的語義(swotti、jodange等),還沒有考慮句子,甚至更大范圍的語義語境對搜索的影響。如:專利號98101921.8模擬大腦語言感知過程的自然語言句類分析方法中的句類分析方法
發明內容
本發明的目的是提供一種利用語義分析的垂直搜索引擎系統與方法,以解決針對現有搜索引擎技術還處在詞語層面和語法層面,或者針對某一方面的語義,還沒有考慮句子,甚至更大范圍的語義語境對搜索的影響的缺陷。
本發明解決其技術問題所采用的技術方案是:采用以句為單位的語義分析技術,提取文本中每個句子所表示的語境屬性,并對語境屬性進行切分標注;在索引時,為每種類型的語境屬性單獨建立索引;在檢索時,可以對不同語境屬性進行獨立檢索,也可以進行組合檢索。
本發明所述的系統,包括:負責對文本進行分析,提取文本中的語境屬性,形成帶語境屬性的標注文本的文本語義分析模塊;負責調用文本語義分析模塊,并根據分析結果,為待索引文本,在索引庫中建立索引的索引系統模塊;負責接收用戶的搜索請求,對請求進行解析,從索引庫中檢索到相應的結果,對結果進行合并和相關度計算,并返回給用戶的檢索系統模塊;文本語義分析模塊包含一個在管理員配置垂直搜索引擎時,根據所屬的行業和領域的特點,所定義的文本語境屬性的分類標準的本體定義模塊、一個根據本體定義模塊,對待索引文檔進行分析,提取文檔中每個句子的語境屬性模塊,并把語境屬性標注到原始文檔中,形成帶語境屬性的標注文本。
所述的文本語義分析模塊,以句子為單位,對文本中的每個句子進行語境屬性提取;提取的依據是以xml形式表示,定義了本體所屬的領域或行業、描述、定義者和定義時間,同時定義了多組語境屬性SemProp;提取過程中,綜合了三方面的因素:特征詞出現的次數、特征詞的概念屬性(動詞、抽象概念、具體概念)加權,以及特征詞在句子中的語義地位加權;在所述的多組語境屬性SemProp中,每個語境屬性<SemProp>中有<name>表示屬性名稱,
<tag>表示標注在文本中的標簽,還有<Character>表示該屬性的特征詞,特征詞可以有多個,之間用逗號隔開。
所述文本語義分析模塊包括以下步驟:
步驟21中,把文本以句號為單位斷開,對每個句子進行處理;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京師范大學,未經北京師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010132348.8/2.html,轉載請聲明來源鉆瓜專利網。





