[發(fā)明專利]一種基于本體的主題搜索算法無效
| 申請?zhí)枺?/td> | 201110431703.6 | 申請日: | 2011-12-20 |
| 公開(公告)號: | CN102542022A | 公開(公告)日: | 2012-07-04 |
| 發(fā)明(設(shè)計)人: | 閆俊英 | 申請(專利權(quán))人: | 上海電機學(xué)院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海思微知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 31237 | 代理人: | 鄭瑋 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 本體 主題 搜索 算法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及個性化信息檢索算法領(lǐng)域,且特別涉及一種基于本體的主題搜索算法。
背景技術(shù)
目前的很多搜索服務(wù)中,有一些針對不同用戶的個性化的信息搜索服務(wù),如基于用戶行為分析的個性化搜索服務(wù),對于不同用戶的相同查詢請求返回的查詢結(jié)果也有所相同,即系統(tǒng)能夠在一定程度上識別不同用戶個性信息需求上的差別。
但是由于對用戶的查詢主題不能進行比較準(zhǔn)確的確定及描述,因此如何在搜索的過程中基于用戶的不同搜索主題進行基于主題的元搜索,成為了信息檢索領(lǐng)域中許多學(xué)者的研究熱點。
在一些個性化信息服務(wù)中,根據(jù)跟蹤用戶的行為,建立用戶的興趣模型,以此來確定用戶感興趣的領(lǐng)域及主題。但是用戶的興趣行為存在很大的可變性,一旦用戶新的搜索行為與之前的興趣模型不相符合的時候,搜索的結(jié)果的準(zhǔn)確性會大大受影響。
本體是共享的概念模型的明確的形式化的規(guī)范說明,其目標(biāo)是通過對相關(guān)領(lǐng)域的知識的分析,提供對該領(lǐng)域知識的共同理解,確定該領(lǐng)域內(nèi)共同認可的概念(術(shù)語),從不同層次給出這些概念之間的相互關(guān)系的明確定義,并用規(guī)范的形式化語言描述這些術(shù)語及其相互關(guān)系。因此,引用本體可以更準(zhǔn)確地表達各個不同的主題概念。
發(fā)明內(nèi)容
本發(fā)明提出一種基于本體的主題搜索算法,得到一種基于本體的性能良好的主題搜索算法,在保證查全率的前提下,更有效地滿足不同用戶針對不同主題的搜索需求,得到更高的查準(zhǔn)率。
為了達到上述目的,本發(fā)明提出一種基于本體的主題搜索算法,包括下列步驟:
建立基于本體的主題模型;
根據(jù)不同的主題模型,匹配合適的成員搜索引擎;
對搜索結(jié)果進行處理。
進一步的,所述基于本體的主題模型采取三元組Topic(C,P,S)來表示,形成主題樹結(jié)構(gòu),其中:C表示由主題領(lǐng)域中的名詞概念,具有相同屬性和行為結(jié)構(gòu)的概念類的集合;P描述概念和關(guān)系的屬性;S表示主題類之間的結(jié)構(gòu)關(guān)系。
進一步的,所述C采用向量空間模型來表示,使用二元組Ci(Keyi,Weighti),其中Keyi表示關(guān)鍵詞,Weighti表示關(guān)鍵詞的權(quán)重。
進一步的,所述匹配合適的成員搜索引擎步驟預(yù)設(shè)有推薦的成員搜索引擎,并可對所述成員搜索引擎進行增減操作。
進一步的,所述對搜索結(jié)果進行處理包括對搜索結(jié)果的預(yù)處理、抽取特征詞集和主題匹配。
進一步的,所述對搜索結(jié)果的預(yù)處理為將來自各成員搜索引擎的檢索結(jié)果經(jīng)過集成、去重后進行分詞處理。
進一步的,所述抽取特征詞集為抽取出表達網(wǎng)頁內(nèi)容的特征詞,并根據(jù)特征詞不同的位置賦予相應(yīng)的權(quán)重,相同的特征詞權(quán)重值相加,形成網(wǎng)頁特征詞集。
進一步的,所述搜索結(jié)果頁面采用特征向量表示,主題的各個子類的概念也是特征向量,根據(jù)向量空間模型,兩特征向量夾角的余弦值表示它們的相關(guān)度。
進一步的,計算出一個網(wǎng)頁與主題的相關(guān)度,根據(jù)設(shè)定的閾值,將相關(guān)度最大的若干個網(wǎng)頁按照相關(guān)度大小返回給用戶。
進一步的,如果一個網(wǎng)頁與本體中該概念的所有屬性的相關(guān)度均達不到閾值策略中設(shè)定的最低相關(guān)度,則該網(wǎng)頁被認定為不屬于用戶確定的領(lǐng)域范圍,將它從結(jié)果集中剔除。
本發(fā)明提出的基于本體的主題搜索算法,基于本體,對領(lǐng)域概念及概念間明確的定義來建立主題模型,能夠較為準(zhǔn)確地確定主題模型。用戶在進行搜索時,可以選擇要進行搜索的主題,根據(jù)各個主題模型匹配與主題相關(guān)的最佳成員搜索引擎,用戶可以刪減偏愛的成員搜索引擎。對于各個成員搜索引擎返回的搜索結(jié)果,采用空間向量模型分別計算與主題的相似度,將滿足條件的結(jié)果返回給用戶。由于采用本體,對用戶的主題的表達更為精確,解決了由于用戶感興趣的主題不明確而造成搜索結(jié)果不夠準(zhǔn)確的問題,因此搜索結(jié)果的準(zhǔn)確性得到了提高。在搜索的過程中,依據(jù)已經(jīng)建立的較為精確的主題模型對搜索結(jié)果頁面進行相關(guān)度計算排序,以獲得相關(guān)度較高的網(wǎng)頁。這種方法既體現(xiàn)了用戶的個性化,又提高了主題搜索的準(zhǔn)確性。
附圖說明
圖1所示為本發(fā)明較佳實施例的基于本體的主題搜索算法流程圖。
具體實施方式
為了更了解本發(fā)明的技術(shù)內(nèi)容,特舉具體實施例并配合所附圖式說明如下。
請參考圖1,圖1所示為本發(fā)明較佳實施例的基于本體的主題搜索算法流程圖。本發(fā)明提出一種基于本體的主題搜索算法,包括下列步驟:
步驟S100:建立基于本體的主題模型;
步驟S200:根據(jù)不同的主題模型,匹配合適的成員搜索引擎;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海電機學(xué)院,未經(jīng)上海電機學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110431703.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





