[發(fā)明專利]文本集合可視化系統(tǒng)有效
| 申請?zhí)枺?/td> | 200810040145.9 | 申請日: | 2008-07-03 |
| 公開(公告)號: | CN101308498A | 公開(公告)日: | 2008-11-19 |
| 發(fā)明(設(shè)計)人: | 馬穎華;蘇貴洋;李建華;馮薇;李文婷 | 申請(專利權(quán))人: | 上海交通大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 上海交達(dá)專利事務(wù)所 | 代理人: | 王錫麟;王桂忠 |
| 地址: | 200240*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 集合 可視化 系統(tǒng) | ||
1、一種文本集合可視化系統(tǒng),其特征在于,包括:文本采集模塊、中文分詞模塊、詞語權(quán)重計算模塊、XML文件組織模塊、可視化圖形界面模塊,其中:
文本采集模塊在互聯(lián)網(wǎng)上搜集網(wǎng)頁文本,將采集到的文本作為原始數(shù)據(jù)源傳入中文分詞模塊;
中文分詞模塊,對文本采集模塊中得到的文本內(nèi)容進(jìn)行分詞處理,獲得以詞為單位的語料,并統(tǒng)計詞頻,保存在本地文本,供后續(xù)的詞語權(quán)重計算模塊讀取詞頻信息計算權(quán)重;
詞語權(quán)重計算模塊,用于對分詞后的結(jié)果進(jìn)行特征抽取即特征詞權(quán)重的計算,將計算結(jié)果連同對應(yīng)的特征詞,以及所在文本的標(biāo)題交給XML文件組織模塊;
XML文件組織模塊負(fù)責(zé)將詞語權(quán)重計算模塊傳入的數(shù)據(jù)以設(shè)定的數(shù)據(jù)結(jié)構(gòu)組織成XML文件保留在本地計算機,并為可視化圖形界面模塊提供讀取文本數(shù)據(jù)結(jié)構(gòu)化處理后的結(jié)果;
可視化圖形界面模塊以上述XML文件組織模塊保留在本地的結(jié)果數(shù)據(jù)為基本語料庫,通過與用戶的交互取得用戶命令,并顯示出結(jié)果;
所述的文本采集模塊,包括:下載子模塊和存儲子模塊,其中:下載子模塊首先從設(shè)定的根網(wǎng)址開始,根據(jù)根網(wǎng)址上提供的網(wǎng)頁鏈接,進(jìn)行設(shè)定層數(shù)的網(wǎng)頁源文件抓取,同時剔除html標(biāo)記和腳本代碼,得到最初的文本內(nèi)容,然后該模塊調(diào)用存儲子模塊,將文本保存在設(shè)定的本地目錄下,在每個文本保存前,首先判斷在同一目錄下是否存在與該文本來源相同的文本,若存在,則對該文本不進(jìn)行保存;當(dāng)采集工作結(jié)束后,調(diào)用所述的中文分詞模塊對上面保存的最初文本內(nèi)容進(jìn)行分詞工作;
所述的中文分詞模塊對采集到的大量中文文本進(jìn)行分詞,并去掉停止詞,使之成為獨立的特征詞,并得到每個詞語在每篇文章中的出現(xiàn)的頻率,交給詞語權(quán)重計算模塊,所述停止詞是指:介詞或語氣助詞。
2、根據(jù)權(quán)利要求1所述的文本集合可視化系統(tǒng),其特征是,所述的詞語權(quán)重計算模塊,包括文件讀取子模塊和權(quán)重計算子模塊,其中:文件讀取子模塊從中文分詞模塊保存的文件中讀出分詞及其詞頻信息,由權(quán)重計算子模塊中得出特征詞的權(quán)重,并調(diào)用XML文件組織模塊,將各篇文檔中的特征詞及其權(quán)重數(shù)據(jù)組織成樹形結(jié)構(gòu),保存為XML特征庫。
3、根據(jù)權(quán)利要求1所述的文本集合可視化系統(tǒng),其特征是,所述的XML文件組織模塊定義了文本標(biāo)題、特征詞及其權(quán)重的數(shù)據(jù)組織形式,并提供了寫入XML文件功能和讀取XML文件功能,分別供詞語權(quán)重計算模塊將輸出結(jié)果組織成XML文件,和可視化圖形界面模塊從本地讀取XML文件中的數(shù)據(jù)集合。
4、根據(jù)權(quán)利要求1所述的文本集合可視化系統(tǒng),其特征是,所述的可視化圖形界面模塊,包括控制子模塊、圖形界面子模塊,其中:控制子模塊接受用戶指令操作,得到輸入的關(guān)鍵詞及操作參數(shù),在本地保存的XML文件庫中檢索包含關(guān)鍵詞的文檔及對應(yīng)權(quán)值,由圖形界面子模塊顯示結(jié)果。
5、根據(jù)權(quán)利要求4所述的文本集合可視化系統(tǒng),其特征是,所述的控制子模塊,其可設(shè)置的操作參數(shù)包括:模糊/精確匹配,顯示比例和以文本形式查看檢索結(jié)果,其中:所述的模糊匹配,是指只要包含某一關(guān)鍵詞就將該文檔計入檢索結(jié)果,即“或”的關(guān)系;所述的精確匹配,是指檢索結(jié)果必須包含所有鍵入的關(guān)鍵詞,即“與”的關(guān)系。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海交通大學(xué),未經(jīng)上海交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810040145.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)可視化模型的處理方法及裝置
- 一種可視化內(nèi)容分發(fā)方法及系統(tǒng)
- 數(shù)據(jù)可視化圖形快速應(yīng)用方法及系統(tǒng)
- 基于有效信息的流場可視化視圖量化方法
- 可視化報表的制作方法、裝置、終端設(shè)備及存儲介質(zhì)
- 一種可視化圖形快速應(yīng)用與傳輸?shù)姆椒跋到y(tǒng)
- 一種可視化數(shù)據(jù)模型編排系統(tǒng)和編排方法
- 一種供水行業(yè)機房3D可視化運維管理系統(tǒng)
- 一種電網(wǎng)數(shù)據(jù)可視化方法、裝置、設(shè)備及介質(zhì)
- 一種大場景城市建筑實時三維可視化的方法





