[發明專利]一種針對證券行業的實時垂直搜索引擎的搜索方法在審
| 申請號: | 201210426552.X | 申請日: | 2012-10-31 |
| 公開(公告)號: | CN103793418A | 公開(公告)日: | 2014-05-14 |
| 發明(設計)人: | 黃拓 | 申請(專利權)人: | 珠海富訊網絡科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 廣州三環專利代理有限公司 44202 | 代理人: | 溫旭 |
| 地址: | 519000 廣東省珠海市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 針對 證券 行業 實時 垂直 搜索引擎 搜索 方法 | ||
1.一種針對證券行業的實時垂直搜索引擎的搜索方法,其特征在于,包括有:首先通過服務器高頻定向抓取新聞網頁,接著對抓取的新聞網頁的新聞內容進行格式化處理,然后對格式化后的新聞內容與相關關鍵字的相關性和/或該新聞內容對公眾的影響力進行評估計算,最后存入數據庫,用戶搜索數據時,服務器將根據多項參數計算搜索結果的權值并排序顯示。
2.根據權利要求1所述的實時垂直搜索引擎的搜索方法,其特征在于,本搜索方法包括有以下步驟:
????S1.?通過服務器高頻定向抓取新聞網頁的URL;
S2.?根據抓取新聞網頁的URL判斷是否已抓取過;
S3.?對抓取的新聞網頁的新聞內容進行格式化處理,將來自各個網站的新聞內容格式化成統一的格式和呈現方式;
S4.?對格式化后的新聞內容與相關關鍵字的相關性進行計算;
S5.?對格式化后的新聞內容對公眾的影響力進行評估計算;
S6.?將有關新聞內容的關鍵字相關性數值、新聞內容的影響力數值存入數據庫,用戶搜索數據時,查詢服務器將根據相關關鍵字的相關性數值、相關新聞內容的影響力數值、以及相關新聞內容的發布時間計算搜索結果的權值并排序顯示。
3.根據權利要求2所述的實時垂直搜索引擎的搜索方法,其特征在于,所述對格式化后的新聞內容與相關關鍵字的相關性進行計算,具體為:首先在格式化后的新聞內容中查找事先已設定好的、證券行業內搜索頻率較高的專有詞匯,若該新聞內容有出現這些詞匯,則將這些詞匯作為該新聞內容的關鍵字,并為各個關鍵字設定一個相關性初始值然后分析各個關鍵字在該新聞內容中出現的位置、形式狀態、出現次數,根據預先設定好各個位置、形式狀態、出現次數對應的加成值進行相應加成,計算出各個關鍵字的相關性基礎值;最后將各個關鍵字的相關性基礎值在所有關鍵字的相關性基礎值之和中的占比,得到各個關鍵字的相關性數值。
4.根據權利要求3所述的實時垂直搜索引擎的搜索方法,其特征在于,所述對格式化后的新聞內容對公眾的影響力進行評估計算,具體為:首先根據定向抓取新聞網頁的網站的周平均訪問流量,預先設定好各個網站對應的影響力基準數值,且所抓取新聞網頁的新聞內容的影響力數值為該網站的影響力基準數值,若抓取同一新聞內容在多個網站發布,則該新聞內容的影響力數值為其在各抓取網站所對應的影響力數值之和。
5.根據權利要求4所述的實時垂直搜索引擎的搜索方法,其特征在于,在所述對格式化后的新聞內容對公眾的影響力進行評估計算過程中,當抓取新聞網頁的新聞內容的主題是預先設定好有加成值的特定主題時,所述抓取新聞網頁的新聞內容的影響力數值為其發布網站的影響力基準數值加成該特定主題對應的加成值。
6.根據權利要求5所述的實時垂直搜索引擎的搜索方法,其特征在于,所述通過服務器高頻定向抓取新聞網頁,具體為:首先設置包括財經網站、證監會指定的上市公司公告發布網站、財經報章雜志媒體網站、證據研究機構網站在內的多個財經網站作為信息源頭,然后通過服務器對這些財經網站進行實時高頻抓取,以獲得最新發布的新聞網頁的URL。
7.根據權利要求6所述的實時垂直搜索引擎的搜索方法,其特征在于,所述用戶搜索數據時,查詢服務器將根據相關關鍵字的相關性數值、相關新聞內容的影響力數值、以及相關新聞內容的發布時間計算搜索結果的權值并排序顯示,具體為:當用戶需要搜索某關鍵字的新聞時,系統將會從新聞索引數據庫中計算相關新聞的權值,作為搜索結果以時間排列方式、相關性-影響力排列方式、或時間-相關性-影響力排列方式排序顯示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于珠海富訊網絡科技有限公司,未經珠海富訊網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210426552.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:文章信息提供方法以及系統
- 下一篇:數據表的批量調整方法及裝置





