[發明專利]互聯網人物信息的搜索方法及系統有效
| 申請號: | 201210560062.9 | 申請日: | 2012-12-21 |
| 公開(公告)號: | CN102968510A | 公開(公告)日: | 2013-03-13 |
| 發明(設計)人: | 王慧昌;楊宏輝;林勝通;鄭漢軍 | 申請(專利權)人: | 廈門市美亞柏科信息股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京恒都律師事務所 11395 | 代理人: | 邸建凱 |
| 地址: | 361008 福建省廈門*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 互聯網 人物 信息 搜索 方法 系統 | ||
技術領域
?本發明涉及互聯網信息檢索領域,特別地,涉及一種互聯網人物信息的搜索方法及系統。
背景技術
隨著互聯網的高速發展和Web技術的不斷改進,網絡應用及信息傳播途徑日益多樣化和便利,任何一個可以接觸互聯網的人都能夠成為信息內容的生產者,每天新生成的網頁數量不斷上漲,互聯網已經成為了一個巨大的可共享的“信息倉庫”。由于網絡的開放性、不確定性、虛擬性和超越時空性等特點,人們在網絡活動中不需要任何信息驗證,完全匿名,往往會在不同的時間地點產生很多不同的虛擬身份。如何在浩如煙海的充斥著大量的廣告、導航及版本聲明等信息的網頁中尋找與搜索目標人物有關的、有價值的網頁,從中提取網絡用戶的身份及活動相關的線索信息,并將人物線索信息進行歸納匯總后得到虛擬人物身份與現實身份的映射關系,方便網絡用戶相互間的聯系、溝通和發現,成為擺在人們面前的一個需要解決的重要問題。
目前,互聯網信息檢索的主要方法是通過搜索引擎技術進行初步信息檢索,結合web信息抽取技術進行特定信息的提取后生成固定格式的檢索結果,其最終仍需要用戶來人工進行最終的確認和分析。公共搜索引擎因其普適性,和查全率真等因素的影響,對于專門的人物檢索需求效果并不理想,因此需要專門的應用系統來解決目前人物搜索面臨的難題。人物搜索系統就是解決互聯網人物搜索難題的專用搜索系統,通過人物搜索系統可以獲得待搜索人物的相關信息,以及與之相關聯的其它人物的信息及其人物間的相互關系,極大的降低了人工檢索時的耗時,提高檢索效率。現有的人物搜索系統基本上可以分為三大類:通用的知名人物搜索系統、特定網站的專有人物搜索系統、百科式的人物搜索系統。
現有的人物搜索系統基本上以網頁搜索為基礎,結合傳統搜索的信息挖掘技術,將人物之間的關系提取出來,給出與人物有關的包括人物簡介、人物關系等豐富信息,其中,百科式的人物搜索系統主要由用戶手工編輯相關人物信息。雖然現有的人物搜索系統都表現出一定的實用價值,但是其應用的局限性也相當明顯。對于非知名的普通現實人物和網絡虛擬人物、只有網絡呢稱的網絡人物、非特定網站和特定領域的人物等人物信息搜索需求,如果要檢索出目標人物的詳細的網絡身份信息和并與現實人物進行映射,現有的人物搜索系統已經不能很好的滿足應用需求。
總之,需要本領域技術人員迫切解決的一個技術問題就是:如何能夠從海量的互聯網數據中快速有效地搜索出目標人物的信息。
發明內容
本發明所要解決的技術問題是提供一種互聯網人物信息的搜索方法及系統,能夠既節約用戶的存儲成本,又能快速準確地檢索出目標人物的身份信息。
為了解決上述問題,一方面提供了一種互聯網人物信息的搜索方法,包括:獲取目標人物信息的查詢關鍵詞;將上述查詢關鍵詞處理成元搜索系統所需的搜索請求參數;?啟動元搜索系統集成的搜索引擎進行搜索;提取搜索結果集合的摘要線索;下載上述搜索結果集合的相關頁面;提取下載頁面的正文線索;優選由上述摘要線索和上述正文線索組成的線索集合;將優選線索集合作為下一輪搜索的入口參數,重復上述步驟,進行迭代搜索、線索收集;對經過多次迭代搜索、優選后的線索集合進行關聯分析,生成虛擬人物的身份信息。
優選的,上述互聯網人物信息的搜索方法還包括:對搜索結果進行排重和優選處理。
優選的,上述優選由上述摘要線索和上述正文線索組成的線索集合的步驟,進一步為:優選由上述摘要線索和上述正文線索組成的線索集合以及外部接口提供的人物資源線索數據庫。
優選的,上述對經過多次迭代搜索、優選后的線索集合進行關聯分析,生成虛擬人物的身份信息的步驟,進一步為:
對經過多次迭代搜索、優選后的線索集合,結合外部接口提供的人物資源庫線索數據進行關聯分析,生成虛擬人物的身份信息。
優選的,上述搜索結果的記錄格式為:Record(RID,title,url,urlID,inTime,docTime,docSummary)。
另一方面,本發明還提供了一種互聯網人物信息的搜索系統,包括:系統參數配置管理模塊、頁面信息收集模塊、線索搜集模塊、關聯分析模塊;其中,
上述系統參數配置管理模塊,用于提供可定制的參數管理,為其它模塊提供參數接口服務;
上述頁面信息收集模塊具體包括:關鍵詞管理單元,用于獲取和管理搜索關鍵詞;關鍵詞處理單元,用于將上述搜索關鍵詞處理成元搜索系統所需的搜索請求參數;搜索單元,用于啟動元搜索系統集成的搜索引擎進行搜索;搜索結果存儲單元,用于存儲搜索結果;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門市美亞柏科信息股份有限公司,未經廈門市美亞柏科信息股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210560062.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:工裝設計輔助裝置及方法
- 下一篇:針對GIS的數據緩存方法和系統
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





