[發(fā)明專利]文本集合可視化系統(tǒng)有效
| 申請?zhí)枺?/td> | 200810040145.9 | 申請日: | 2008-07-03 |
| 公開(公告)號: | CN101308498A | 公開(公告)日: | 2008-11-19 |
| 發(fā)明(設(shè)計)人: | 馬穎華;蘇貴洋;李建華;馮薇;李文婷 | 申請(專利權(quán))人: | 上海交通大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 上海交達(dá)專利事務(wù)所 | 代理人: | 王錫麟;王桂忠 |
| 地址: | 200240*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 集合 可視化 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種計算機(jī)應(yīng)用技術(shù)領(lǐng)域的系統(tǒng),具體地說,涉及的是一種文本集合可視化系統(tǒng)。
背景技術(shù)
隨著web技術(shù)的廣泛深入,人們對于信息的獲取渠道日益拓寬,只要人們使用搜索引擎進(jìn)行搜索,同一個關(guān)鍵詞所引發(fā)的搜索結(jié)果可能都會是海量的數(shù)據(jù)。如何從這些結(jié)果中提取最能反映用戶需要的信息,成為一個越來越被重視的命題,而文本的可視化就是其中一個很好的解決方案。
信息的可視化呈現(xiàn)能夠加快人們對信息的處理速度。人眼每秒可以處理超過5百萬比特的信息量,而大腦每秒只能理解大約500比特的信息量。普通的關(guān)鍵字搜索過程中,人們往往還是需要通過閱讀文字,在大致了解了文章的內(nèi)容后才能判斷是否是所需要的文檔。就算只看文章的標(biāo)題,來決定是不是去讀這篇文章,這樣對文章內(nèi)容的查看信息量會更大,而且有時候會遺漏很有價值的文本。但是即使如此,也經(jīng)常會被大量的文章所淹沒。文本集合可視化技術(shù)利用視覺處理信息大的特點(diǎn),用圖形表達(dá)信息的分布狀態(tài),靠視覺來判斷該文本是否接近自己需求,可以更快速的處理大量的檢索結(jié)果。
文本集合可視化的目的是用二維/三維圖像來結(jié)構(gòu)化地顯示文本的內(nèi)容,以協(xié)助各類分析、檢索或文本挖掘工作。因此一般先為文本建立數(shù)學(xué)模型,然后用二維/三維圖像來顯示這個模型,以達(dá)到直觀、形象地展現(xiàn)文本特點(diǎn)的目的。建立模型可以幫助理解文本結(jié)構(gòu)。
文章、段落是扁平的流結(jié)構(gòu),不宜于分析和處理,如果不建立適當(dāng)?shù)慕Y(jié)構(gòu)和模型,只能通過人們對文本逐字逐句的理解來實現(xiàn)分析。這種人工檢閱的方法在處理和分析大量文本數(shù)據(jù)的情況下效率極低,另一方面,現(xiàn)在普遍的網(wǎng)絡(luò)搜索工具如google、yahoo等,都只判斷文章中是否包含輸入的關(guān)鍵詞來返回搜索結(jié)果,并不對文本集進(jìn)行進(jìn)一步的分類或其它處理,時常會返回一些含有相同文本內(nèi)容的不同網(wǎng)頁,加大了用戶審閱文本的工作量。
經(jīng)對現(xiàn)有技術(shù)的文獻(xiàn)檢索發(fā)現(xiàn),中國專利中有不少是關(guān)于“可視化系統(tǒng)”,比如200510086559.1(“計算網(wǎng)格的遠(yuǎn)程可視化系統(tǒng)”),03121859.8(“模塊化輔助可視化系統(tǒng)”)等等,這些專利技術(shù)雖然可以實現(xiàn)可視化,但是都不是以圖形的方式顯示出來,而且無法應(yīng)用在文本可視化技術(shù)搜索引擎方面。
發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有技術(shù)中存在的上述不足,提供了一種文本集合可視化系統(tǒng),通過建立文本數(shù)據(jù)模型來對關(guān)鍵詞和文本進(jìn)行度量,根據(jù)結(jié)構(gòu)(即文本組成成分)分類文本內(nèi)容,并以圖形化方式顯示結(jié)果,使用戶面對海量的數(shù)據(jù)時,不僅有辦法篩選出自己可能感興趣的部分,更要以圖形化的方式形象的呈現(xiàn)在用戶面前,并且能夠直觀地反映搜索結(jié)果中各部分與自己搜索目的的緊密程度,給于用戶直接的導(dǎo)向性信息。
本發(fā)明是通過以下技術(shù)方案實現(xiàn)的:
本發(fā)明包括:文本采集模塊、中文分詞模塊、詞語權(quán)重計算模塊、XML文件組織模塊、可視化圖形界面模塊,其中:
文本采集模塊在互聯(lián)網(wǎng)上搜集網(wǎng)頁文本,將采集到的文本作為原始數(shù)據(jù)源傳入中文分詞模塊;
中文分詞模塊,對文本采集模塊中得到的文本內(nèi)容進(jìn)行分詞處理,獲得以詞為單位的語料,并統(tǒng)計詞頻,保存在本地文本,供后續(xù)的詞語權(quán)重計算模塊讀取詞頻信息計算權(quán)重;
詞語權(quán)重計算模塊,用于對分詞后的結(jié)果進(jìn)行特征抽取即特征詞權(quán)重的計算,將計算結(jié)果連同對應(yīng)的特征詞,以及所在文本的標(biāo)題交給XML文件組織模塊;
XML文件組織模塊負(fù)責(zé)將詞語權(quán)重計算模塊傳入的數(shù)據(jù)以設(shè)定的數(shù)據(jù)結(jié)構(gòu)組織成XML文件保留在本地計算機(jī),并為可視化圖形界面模塊提供讀取文本數(shù)據(jù)結(jié)構(gòu)化處理后的結(jié)果;
可視化圖形界面模塊以上述XML文件組織模塊保留在本地的結(jié)果數(shù)據(jù)為基本語料庫,通過與用戶的交互取得用戶命令,并顯示出結(jié)果。
所述的文本采集模塊,包括:下載子模塊和存儲子模塊,其中:下載子模塊首先從設(shè)定的根網(wǎng)址開始,根據(jù)根網(wǎng)址上提供的網(wǎng)頁鏈接,進(jìn)行設(shè)定層數(shù)的網(wǎng)頁源文件抓取,同時剔除html標(biāo)記和腳本代碼等非正文內(nèi)容,得到最初的文本內(nèi)容,然后該模塊調(diào)用存儲子模塊,將文本保存在設(shè)定的本地目錄下,在每個文本保存前,首先判斷在同一目錄下是否存在與該文本來源(以URL為依據(jù))相同的文本,若存在,則對該文本不進(jìn)行保存;當(dāng)采集工作結(jié)束后,調(diào)用所述的中文分詞模塊對上面保存的最初文本內(nèi)容進(jìn)行分詞工作。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海交通大學(xué),未經(jīng)上海交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810040145.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 數(shù)據(jù)可視化模型的處理方法及裝置
- 一種可視化內(nèi)容分發(fā)方法及系統(tǒng)
- 數(shù)據(jù)可視化圖形快速應(yīng)用方法及系統(tǒng)
- 基于有效信息的流場可視化視圖量化方法
- 可視化報表的制作方法、裝置、終端設(shè)備及存儲介質(zhì)
- 一種可視化圖形快速應(yīng)用與傳輸?shù)姆椒跋到y(tǒng)
- 一種可視化數(shù)據(jù)模型編排系統(tǒng)和編排方法
- 一種供水行業(yè)機(jī)房3D可視化運(yùn)維管理系統(tǒng)
- 一種電網(wǎng)數(shù)據(jù)可視化方法、裝置、設(shè)備及介質(zhì)
- 一種大場景城市建筑實時三維可視化的方法





