[發(fā)明專利]一種檢索結(jié)果相似條目的合并方法及其系統(tǒng)無效
| 申請?zhí)枺?/td> | 201210451656.6 | 申請日: | 2012-11-12 |
| 公開(公告)號: | CN102930038A | 公開(公告)日: | 2013-02-13 |
| 發(fā)明(設(shè)計(jì))人: | 李道遠(yuǎn);程鑫;高俊;顧鑫 | 申請(專利權(quán))人: | 江蘇外博資訊有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海麥其知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 31257 | 代理人: | 董紅曼 |
| 地址: | 226010 江蘇省南通市南*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 檢索 結(jié)果 相似 目的 合并 方法 及其 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及信息搜索技術(shù),尤其涉及一種檢索結(jié)果相似條目的合并方法及其系統(tǒng)。
背景技術(shù)
隨著計(jì)算機(jī)及信息技術(shù)的快速發(fā)展,由計(jì)算機(jī)自動或輔助用戶生成的信息越來越多,如何在海量信息中檢索特定信息由此變得十分重要。為了解決此類問題,各種計(jì)算機(jī)信息檢索技術(shù)應(yīng)運(yùn)而生,包括計(jì)算機(jī)文件檢索系統(tǒng)、網(wǎng)絡(luò)搜索引擎、在線數(shù)據(jù)庫聯(lián)機(jī)檢索系統(tǒng)等。計(jì)算機(jī)用戶利用這些系統(tǒng)通過鍵入關(guān)鍵詞而查找所需信息,此類系統(tǒng)在很大程度上解決了用戶檢索信息的難題,但是它們還缺乏精確檢索的能力以及良好的用戶體驗(yàn)。例如,用戶在使用大多數(shù)網(wǎng)絡(luò)搜索引擎使用關(guān)鍵詞檢索信息時(shí),經(jīng)常會得到來自于不同來源的內(nèi)容雷同的條目。當(dāng)此類條目數(shù)量顯著時(shí),用戶會收到大量重復(fù)信息對其的干擾,不利于用戶迅速準(zhǔn)確的獲取所需信息。
同時(shí),經(jīng)過多年發(fā)展,計(jì)算機(jī)文件相似度檢測技術(shù)也逐漸成熟。例如,使用散列算法可以檢測文件內(nèi)容是否相同,通過計(jì)算兩個文件的Jaccard指數(shù)或者其它類似的SimHashing算法可得到兩個文件的相似度。此類技術(shù)和技術(shù)已被廣泛的用于檢索文本文件的相似度。
隨著用戶搜索需求的增長,通常單一的搜索引擎難以滿足用戶搜索的需要,因此出現(xiàn)了一種利用多個搜索引擎資源,通過集成檢索結(jié)果為用戶提供最終結(jié)果的元搜索技術(shù)。但由于此類技術(shù)涉及到整合多個搜索服務(wù)提供方資源、不可避免的觸及不同搜索廠商的利益,容易引發(fā)商業(yè)爭斗和政治問題,所以元搜索技術(shù)至今仍術(shù)被廣泛應(yīng)用。
發(fā)明內(nèi)容
本發(fā)明提出了一種檢索結(jié)果相似條目的合并方法,包括如下步驟:
步驟一:獲取包含至少一項(xiàng)條目的檢索結(jié)果;
步驟二:對所述檢索結(jié)果中的條目進(jìn)行相似度對比,獲得所述條目之間的相似度對比值;
步驟三:將所述相似度對比值與所述相似度閾值比較,根據(jù)比較結(jié)果,合并相似條目;
步驟四:顯示相似條目合并后的檢索結(jié)果。
其中,所述步驟一中的檢索結(jié)果的生成步驟包括:
步驟A1:獲取關(guān)鍵詞,對所述關(guān)鍵詞進(jìn)行預(yù)處理;
步驟A2:判斷所述預(yù)處理后的關(guān)鍵詞是否符合要求;若符合要求的,則根據(jù)所述關(guān)鍵詞進(jìn)行檢索生成檢索結(jié)果;若不符合要求的,則重新執(zhí)行所述步驟A1、A2,直至生成檢索結(jié)果。
其中,所述步驟一中進(jìn)一步包括:根據(jù)權(quán)值將所述條目由高到低排序。
其中,進(jìn)一步包括:權(quán)值相同的所述條目根據(jù)所述條目被引用次數(shù)由高到低排序。
其中,所述步驟三中,所述相似度閾值采用默認(rèn)值或用戶設(shè)定值。
其中,所述步驟三中,所述合并相似條目包括:
步驟B1:判斷已處理?xiàng)l目集合是否為空;若所述已處理?xiàng)l目集合為空,則初始化所述已處理?xiàng)l目集合,將所述檢索結(jié)果中的未處理?xiàng)l目集合中的任意一個條目作為起始條目,并將該起始條目存入所述已處理?xiàng)l目集合中,執(zhí)行步驟B2;若所述已處理?xiàng)l目集合不為空,則執(zhí)行步驟B2;
步驟B2:將所述未處理?xiàng)l目集合的一個條目與已處理?xiàng)l目集合中的所有條目依次計(jì)算相似度對比值,并將所述相似度對比值與相似度閾值比較,若大于等于相似度閾值則將該當(dāng)前兩條目進(jìn)行合并生成合并條目,將所述條目以所述合并條目的子條目的方式存入所述已處理?xiàng)l目集合;若小于相似度閾值,則將所述條目以所述已處理?xiàng)l目集合的子集的方式存入所述已處理?xiàng)l目集合;
步驟B3:重復(fù)執(zhí)行所述步驟B2,直至所述術(shù)處理?xiàng)l目集合為空時(shí)為止。
其中,進(jìn)一步包括:當(dāng)重新設(shè)定相似度閾值時(shí),重新執(zhí)行所述步驟二至步驟四。
其中,在所述步驟B2中,以所述已合并條目中的權(quán)值最高的子條目作為代表項(xiàng)。
本發(fā)明還提出了一種檢索結(jié)果相似條目的合并系統(tǒng),包括:
條目處理裝置,其處理檢索結(jié)果中的各條目;
相似度對比裝置,其與所述條目處理裝置連接,對所述檢索結(jié)果中的條目進(jìn)行相似度對比,生成所述相似度對比值;
閾值設(shè)定裝置,其與所述條目處理裝置連接,實(shí)現(xiàn)設(shè)定所述相似度閾值;
顯示裝置,其與所述條目處理裝置連接,向用戶顯示所述相似條目合并后的檢索結(jié)果。
其中,進(jìn)一步包括:
數(shù)據(jù)庫,其存儲有海量信息;
檢索裝置,其與所述數(shù)據(jù)庫及所述條目處理裝置連接,用于根據(jù)關(guān)鍵詞檢索所述海量信息生成所述檢索結(jié)果,并生成所述檢索結(jié)果中各條目與所述關(guān)鍵詞的匹配度的權(quán)值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于江蘇外博資訊有限公司,未經(jīng)江蘇外博資訊有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210451656.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種吊扇用水平安全支架
- 下一篇:空腔式吸聲墻板
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)





