[發(fā)明專利]網(wǎng)絡(luò)信息搜索與分類服務(wù)系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 201110242394.8 | 申請(qǐng)日: | 2011-08-23 |
| 公開(公告)號(hào): | CN102955791A | 公開(公告)日: | 2013-03-06 |
| 發(fā)明(設(shè)計(jì))人: | 丁力 | 申請(qǐng)(專利權(quán))人: | 句容今太科技園有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 212400 江蘇省鎮(zhèn)江市句容市*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 網(wǎng)絡(luò) 信息 搜索 分類 服務(wù) 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明屬于信息處理領(lǐng)域,尤其涉及網(wǎng)絡(luò)信息搜索與分類服務(wù)系統(tǒng)。
背景技術(shù)
隨著信息技術(shù)的發(fā)展,尤其是網(wǎng)絡(luò)應(yīng)用的普及,人們已經(jīng)從信息缺乏的時(shí)代過(guò)渡到信息極為豐富的時(shí)代。如何從大量信息中迅速有效地提取出所需信息以及如何對(duì)網(wǎng)絡(luò)信息進(jìn)行深層加工處理和信息提取已經(jīng)成為人們迫切解決的問題。
發(fā)明內(nèi)容
為解決上述問題,本發(fā)明提供了一種網(wǎng)絡(luò)信息搜索與分類服務(wù)系統(tǒng),該系統(tǒng)包括以下模塊:信息抓取模塊,網(wǎng)頁(yè)內(nèi)容抽取模塊,預(yù)料庫(kù)維護(hù)模塊,詞典管理模塊,機(jī)器學(xué)習(xí)模塊以及文檔分類模塊;
所述的信息抓取模塊,其用于下載用戶選擇的網(wǎng)站或網(wǎng)頁(yè);
所述的網(wǎng)頁(yè)內(nèi)容抽取模塊,其用于將上述網(wǎng)絡(luò)信息抓取模塊下載下來(lái)的網(wǎng)頁(yè)抽取成純文本;
所述的語(yǔ)料庫(kù)維護(hù)模塊,其用于管理用于算法學(xué)習(xí)和特征提取的各個(gè)領(lǐng)域的訓(xùn)練文檔集;
所述的詞典管理模塊,其用于維護(hù)用于詞條切分和詞頻統(tǒng)計(jì)的主詞典和同義詞典;
所述的機(jī)器學(xué)習(xí)模塊,其用于對(duì)訓(xùn)練文檔進(jìn)行詞條切分和詞頻統(tǒng)計(jì),并根據(jù)詞頻分布提取出代表文檔類的特征項(xiàng)集及相應(yīng)權(quán)值,生成相應(yīng)的類模型;
所述文檔分類模塊,其用于根據(jù)詞頻分布,提取出待分類文檔的代表向量,并計(jì)算各文檔類特征向量的相似度,符合一定的閾值條件則將其歸屬到相應(yīng)的類別中。
本發(fā)明發(fā)明的網(wǎng)絡(luò)信息搜索與分類服務(wù)系統(tǒng)能從大量信息中迅速有效地提取所需信息,并對(duì)其進(jìn)行分類,為人們搜索信息資源提供了更精確化和人性化的服務(wù)。
附圖說(shuō)明
圖1為本發(fā)明提供的網(wǎng)絡(luò)信息搜索與分類服務(wù)系統(tǒng)的模塊示意圖。
具體實(shí)施方式
本發(fā)明發(fā)明的網(wǎng)絡(luò)信息搜索與分類服務(wù)系統(tǒng)的模塊示意圖如圖1所示,包括以下模塊:
信息抓取模塊,網(wǎng)頁(yè)內(nèi)容抽取模塊,預(yù)料庫(kù)維護(hù)模塊,詞典管理模塊,機(jī)器學(xué)習(xí)模塊以及文檔分類模塊;
所述的信息抓取模塊,其用于下載用戶選擇的網(wǎng)站或網(wǎng)頁(yè);還用于網(wǎng)站的下載深度、下載文件的存放路徑的基本設(shè)置以及文件過(guò)濾和服務(wù)器過(guò)濾的過(guò)濾設(shè)置,網(wǎng)頁(yè)下載后按照網(wǎng)頁(yè)的深度按層存放;
所述的網(wǎng)頁(yè)內(nèi)容抽取模塊,其用于將上述網(wǎng)絡(luò)信息抓取模塊下載下來(lái)的網(wǎng)頁(yè)抽取成純文本;用于網(wǎng)頁(yè)抽取成文本后的存放目錄和要處理的網(wǎng)頁(yè)的目錄的目錄設(shè)置以及抽取網(wǎng)頁(yè)正文的P和T閾值的設(shè)置,所述P表示table節(jié)點(diǎn)中的中文字符數(shù)的最小值的一個(gè)取值標(biāo)準(zhǔn),所述T表示table節(jié)點(diǎn)中去掉HTML標(biāo)記所含的中文字符與全部中文字符的個(gè)數(shù)的比值的一個(gè)取值標(biāo)準(zhǔn)。
所述的語(yǔ)料庫(kù)維護(hù)模塊,其用于管理用于算法學(xué)習(xí)和特征提取的各個(gè)領(lǐng)域的訓(xùn)練文檔集;還用于不同領(lǐng)域的訓(xùn)練文檔集的保存設(shè)置以及語(yǔ)料庫(kù)初始化和語(yǔ)料庫(kù)的維護(hù);
詞典管理模塊,其用于維護(hù)用于詞條切分和詞頻統(tǒng)計(jì)的主詞典和同義詞典;還用于詞典的建立和詞條的添加、刪除和修改。
機(jī)器學(xué)習(xí)模塊,其用于對(duì)訓(xùn)練文檔進(jìn)行詞條切分和詞頻統(tǒng)計(jì),并根據(jù)詞頻分布提取出代表文檔類的特征項(xiàng)集及相應(yīng)權(quán)值,生成相應(yīng)的類模型;
文檔分類模塊,其用于根據(jù)詞頻分布,提取出待分類文檔的代表向量,并計(jì)算各文檔類特征向量的相似度,符合一定的閾值條件則將其歸屬到相應(yīng)的類別中;操作方式分為自動(dòng)執(zhí)行和手動(dòng)執(zhí)行兩種,所述的自動(dòng)執(zhí)行是指根據(jù)系統(tǒng)設(shè)置,定時(shí)對(duì)輸入目錄中的帶分類文檔進(jìn)行批量分類處理;所述的手動(dòng)執(zhí)行是指需要用戶選定待分類文檔,逐一處理。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于句容今太科技園有限公司,未經(jīng)句容今太科技園有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110242394.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





