[發(fā)明專(zhuān)利]一種搜索信息的方法、裝置和終端有效
| 申請(qǐng)?zhí)枺?/td> | 201210102446.6 | 申請(qǐng)日: | 2012-04-09 |
| 公開(kāi)(公告)號(hào): | CN103365924A | 公開(kāi)(公告)日: | 2013-10-23 |
| 發(fā)明(設(shè)計(jì))人: | 楊建武;吳新麗;梁汝峰;于曉明;張丹;汪洋 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京大學(xué);北大方正集團(tuán)有限公司;北京北大方正電子有限公司 |
| 主分類(lèi)號(hào): | G06F17/30 | 分類(lèi)號(hào): | G06F17/30 |
| 代理公司: | 北京同達(dá)信恒知識(shí)產(chǎn)權(quán)代理有限公司 11291 | 代理人: | 李娟 |
| 地址: | 100871*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 搜索 信息 方法 裝置 終端 | ||
1.一種搜索信息的方法,其特征在于,包括:
從網(wǎng)頁(yè)采集源采集網(wǎng)頁(yè)信息;
根據(jù)采集的網(wǎng)頁(yè)信息,建立信息資料庫(kù);
根據(jù)客戶(hù)端發(fā)送的搜索請(qǐng)求,在所述信息資料庫(kù)中進(jìn)行搜索;
將搜索結(jié)果推送到所述客戶(hù)端進(jìn)行顯示。
2.如權(quán)利要求1所述的方法,其特征在于,所述從網(wǎng)頁(yè)采集源采集網(wǎng)頁(yè)信息,包括:
當(dāng)所述網(wǎng)頁(yè)采集源為選定的網(wǎng)站時(shí),根據(jù)預(yù)先配置的采集任務(wù)采用網(wǎng)絡(luò)爬蟲(chóng)采集網(wǎng)頁(yè)信息;
當(dāng)所述網(wǎng)頁(yè)采集源為通過(guò)搜索引擎搜索的網(wǎng)頁(yè)時(shí),采用預(yù)先配置的搜索規(guī)則搜索網(wǎng)頁(yè),并采集網(wǎng)頁(yè)信息;
其中,所述采集任務(wù)包括:欲采集的網(wǎng)站名稱(chēng)、采集時(shí)的起始鏈接地址、采集的深度和刷新策略;所述網(wǎng)頁(yè)信息包括:元數(shù)據(jù)和正文。
3.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)采集的網(wǎng)頁(yè)信息,建立信息資料庫(kù),包括:
將采集的網(wǎng)頁(yè)信息處理為采集結(jié)果文件并緩存;
對(duì)所述采集結(jié)果文件進(jìn)行自然語(yǔ)言處理,提取關(guān)鍵詞和摘要;
存儲(chǔ)所述網(wǎng)頁(yè)信息、以及所述關(guān)鍵詞和摘要,建立信息資料庫(kù)。
4.如權(quán)利要求3所述的方法,其特征在于,提取關(guān)鍵詞和摘要之后,還包括:基于語(yǔ)料庫(kù)信息,采用文本分類(lèi)模型對(duì)所述采集結(jié)果文件進(jìn)行自動(dòng)分類(lèi)處理。
5.如權(quán)利要求3所述的方法,其特征在于,所述提取關(guān)鍵詞和摘要之后,還包括:基于垃圾詞匯表,對(duì)采集結(jié)果文件進(jìn)行信息過(guò)濾。
6.如權(quán)利要求3所述的方法,其特征在于,存儲(chǔ)所述網(wǎng)頁(yè)信息、以及所述關(guān)鍵詞和摘要,建立信息資料庫(kù),包括:
將所述采集的網(wǎng)頁(yè)信息中的元數(shù)據(jù)、及提取的關(guān)鍵詞和摘要信息存儲(chǔ)到網(wǎng)頁(yè)庫(kù);
將所述采集的網(wǎng)頁(yè)信息中的正文以文件的形式存儲(chǔ)到文件庫(kù)中;
將所述元數(shù)據(jù)、提取的關(guān)鍵詞和摘要信息、以及正文作為搜索時(shí)使用的信息資料庫(kù)資源。
7.如權(quán)利要求6所述的方法,其特征在于,還包括:
建立全文檢索漸進(jìn)表;
在所述全文檢索漸進(jìn)表中記錄網(wǎng)頁(yè)信息中的元數(shù)據(jù)、提取的關(guān)鍵詞和摘要信息、以及所述網(wǎng)頁(yè)信息的關(guān)鍵數(shù)據(jù)項(xiàng);
所述關(guān)鍵數(shù)據(jù)項(xiàng)包括:該網(wǎng)頁(yè)信息存儲(chǔ)的唯一鍵值、索引建立方式和網(wǎng)頁(yè)信息中正文的存儲(chǔ)路徑。
8.如權(quán)利要求7所述的方法,其特征在于,所述全文檢索漸進(jìn)表中新增網(wǎng)頁(yè)信息的記錄后,讀取所述網(wǎng)頁(yè)信息的記錄,獲取網(wǎng)頁(yè)信息的唯一鍵值,根據(jù)正文的存儲(chǔ)路徑讀取正文;對(duì)所述正文進(jìn)行分詞處理,根據(jù)分詞處理結(jié)果建立索引。
9.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)客戶(hù)端發(fā)送的搜索請(qǐng)求,在所述信息資料庫(kù)中進(jìn)行搜索,包括:
接收所述客戶(hù)端發(fā)送的搜索請(qǐng)求;
分析所述搜索請(qǐng)求攜帶的搜索請(qǐng)求規(guī)則,建立用于搜索的語(yǔ)法樹(shù);
根據(jù)所述語(yǔ)法樹(shù),在所述信息資料庫(kù)中搜索匹配的網(wǎng)頁(yè)信息。
10.如權(quán)利要求1所述的方法,其特征在于,還包括:
對(duì)所述搜索結(jié)果進(jìn)行敏感信息檢測(cè);
當(dāng)敏感信息的數(shù)目或者增長(zhǎng)率超過(guò)閾值時(shí),向所述客戶(hù)端發(fā)送預(yù)警信息。
11.如權(quán)利要求1所述的方法,其特征在于,還包括:
對(duì)所述搜索結(jié)果中的網(wǎng)頁(yè)信息進(jìn)行聚類(lèi)分析;
對(duì)所述搜索結(jié)果中的網(wǎng)頁(yè)信息中的標(biāo)題和正文,進(jìn)行相似度匹配;
將相似度達(dá)到相似度閾值的網(wǎng)頁(yè)信息中發(fā)布時(shí)間最早的網(wǎng)頁(yè)信息作為原始信息;
獲取與所述原始信息相似度達(dá)到相似度閾值的網(wǎng)頁(yè)信息中發(fā)布時(shí)間最早的網(wǎng)頁(yè)信息作為第一級(jí)信息;
獲取與所述第一級(jí)信息相似度達(dá)到相似度閾值的網(wǎng)頁(yè)信息中發(fā)布時(shí)間最早的網(wǎng)頁(yè)信息作為第二級(jí)信息;
以此類(lèi)推,直到所述相似度未達(dá)到相似度閾值,將各級(jí)信息按照級(jí)別順序構(gòu)成傳播路徑。
12.如權(quán)利要求1所述的方法,其特征在于,還包括:根據(jù)資料庫(kù)中的網(wǎng)頁(yè)信息中的元數(shù)據(jù)的變化值,確定出網(wǎng)頁(yè)信息趨勢(shì)曲線。
13.如權(quán)利要求1所述的方法,其特征在于,還包括:
所述客戶(hù)端在所述搜索結(jié)果中選擇任一網(wǎng)頁(yè)信息進(jìn)行顯示時(shí),在信息資料庫(kù)中獲取與當(dāng)前選擇的網(wǎng)頁(yè)信息關(guān)聯(lián)度超過(guò)關(guān)聯(lián)閾值的網(wǎng)頁(yè)信息,并推送到所述客戶(hù)端。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京大學(xué);北大方正集團(tuán)有限公司;北京北大方正電子有限公司,未經(jīng)北京大學(xué);北大方正集團(tuán)有限公司;北京北大方正電子有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210102446.6/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 光源裝置、照明裝置、液晶裝置和電子裝置
- 預(yù)測(cè)裝置、編輯裝置、逆預(yù)測(cè)裝置、解碼裝置及運(yùn)算裝置
- 圖像形成裝置、定影裝置、遮光裝置以及保持裝置
- 打印裝置、讀取裝置、復(fù)合裝置以及打印裝置、讀取裝置、復(fù)合裝置的控制方法
- 電子裝置、光盤(pán)裝置、顯示裝置和攝像裝置
- 光源裝置、照明裝置、曝光裝置和裝置制造方法
- 用戶(hù)裝置、裝置對(duì)裝置用戶(hù)裝置、后端裝置及其定位方法
- 遙控裝置、通信裝置、可變裝置及照明裝置
- 透鏡裝置、攝像裝置、處理裝置和相機(jī)裝置
- 抖動(dòng)校正裝置、驅(qū)動(dòng)裝置、成像裝置、和電子裝置





