[發(fā)明專利]一種圖文集合的可視化方法和裝置有效
| 申請?zhí)枺?/td> | 201310538293.4 | 申請日: | 2013-11-04 |
| 公開(公告)號: | CN103593337A | 公開(公告)日: | 2014-02-19 |
| 發(fā)明(設(shè)計(jì))人: | 唐家渝;劉知遠(yuǎn);孫茂松 | 申請(專利權(quán))人: | 清華大學(xué) |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06K9/46 |
| 代理公司: | 西安智大知識產(chǎn)權(quán)代理事務(wù)所 61215 | 代理人: | 賈玉健 |
| 地址: | 100084 北京市海淀區(qū)1*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 圖文 集合 可視化 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及文本信息處理和信息可視化技術(shù)領(lǐng)域,特別涉及一種圖文集合的可視化方法和裝置。
背景技術(shù)
隨著信息技術(shù)的快速發(fā)展,海量信息不斷涌現(xiàn),使得人們對其處理和理解的難度日益增大。信息可視化為幫助人們理解信息和獲取知識提供了一種有效手段:將數(shù)據(jù)映射為視覺符號,同時(shí)向人們提供與視覺信息進(jìn)行快速交互的功能,使人們能夠利用與生俱來的視覺感知的并行化處理能力快速獲取大數(shù)據(jù)中所蘊(yùn)含的關(guān)鍵信息。信息可視化作為一個(gè)跨學(xué)科研究領(lǐng)域,綜合地使用計(jì)算機(jī)圖形學(xué)、人機(jī)交互、心理學(xué)等學(xué)科中的技術(shù)和理論,也與統(tǒng)計(jì)學(xué)、自然語言處理等有著相輔相成之處。
基于文本內(nèi)容的可視化技術(shù)將詞頻(詞語在文本中的出現(xiàn)次數(shù))、分布情況等基本統(tǒng)計(jì)信息進(jìn)行圖形化呈現(xiàn),能使用戶快速地了解文本的大體內(nèi)容,對于進(jìn)一步的分析具有重要的向?qū)б饬x。其中,標(biāo)簽云是一種將文本看作詞語的集合,利用詞頻信息來呈現(xiàn)文本特征的可視化技術(shù)。標(biāo)簽云將詞語按照一定順序和規(guī)律排列,如頻度遞減順序、字母順序等,以文字的大小代表詞語的頻度或重要性。最初的標(biāo)簽云大多都采用將文字一行一行地水平排列的方式,后來漸漸遵循更加美觀復(fù)雜的布局規(guī)則,Jonathan?Feinberg提出的Wordle便是其中被廣泛采用的代表之一。
然而,數(shù)據(jù)中通常不僅有文本,還有與之相關(guān)聯(lián)的圖片。目前,對于同時(shí)含有圖片和文本數(shù)據(jù)的圖文集合的可視化研究還比較缺乏。其中,Hendrik?Strobelt的Document?Cards只是對文本和圖片進(jìn)行了簡單的羅列,缺乏視覺美感,而標(biāo)簽云只考慮了利用詞語對文本集合進(jìn)行可視化,并未考慮如何抽取特征圖片并進(jìn)行合理的可視化布局同文本信息一同呈現(xiàn)。
發(fā)明內(nèi)容
為了克服上述現(xiàn)有技術(shù)的缺點(diǎn),本發(fā)明的目的在于提供一種圖文集合的可視化方法和裝置,通過對圖文集合中的特征詞語和圖片進(jìn)行抽取,并以圖形化的方式顯示結(jié)果,使用戶對圖文集合的整體和重要內(nèi)容有直觀地了解。
為了實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是:
一方面,提供了一種圖文集合的可視化方法,所述方法包括:
對含有圖片的文本集合進(jìn)行處理,以得到圖文集合的特征詞及特征詞的權(quán)重、特征圖片及特征圖片的權(quán)重;
利用特征詞與特征圖片對圖文集合進(jìn)行可視化。
另一方面,提供了一種圖文集合的可視化裝置,所述裝置包括:
預(yù)處理模塊,用于將待可視化的原始數(shù)據(jù)進(jìn)行預(yù)處理,獲得圖文集合的特征詞及特征詞的權(quán)重、特征圖片及特征圖片的權(quán)重;
可視化模塊,用于利用上述結(jié)果數(shù)據(jù)進(jìn)行信息可視化,呈現(xiàn)出圖文集合的特征。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
將圖文集合的特征詞及特征圖片通過圖形界面進(jìn)行展示,從而達(dá)到使用戶直觀、快速地了解圖文集合內(nèi)容的目的。
附圖說明
圖1是本發(fā)明實(shí)施例1提供的圖文集合的可視化方法流程圖。
圖2是本發(fā)明實(shí)施例2提供的圖文集合的可視化裝置結(jié)構(gòu)示意圖。
圖3是本發(fā)明實(shí)施例3提供的圖文集合的可視化裝置結(jié)構(gòu)示意圖。
圖4是應(yīng)用本發(fā)明實(shí)施例3所述裝置對圖文集合進(jìn)行可視化的結(jié)果示例示意圖。
具體實(shí)施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖和實(shí)施例對本發(fā)明作進(jìn)一步的詳細(xì)描述。
實(shí)施例1
參見圖1,本實(shí)施例提供了一種圖文集合的可視化方法,流程如下所示:
101:對圖文集合進(jìn)行預(yù)處理;
102:對圖文集合進(jìn)行可視化。
本實(shí)施例提供的方法,通過抽取圖文集合的特征詞語及特征圖片,并以圖形化的方式顯示結(jié)果,達(dá)到使用戶直觀、快速地了解圖文集合內(nèi)容的有益效果。
實(shí)施例2
參見圖2,本實(shí)施提供了一種圖文集合的可視化裝置,該裝置包括:
預(yù)處理模塊201,用于對待進(jìn)行可視化的圖文集合進(jìn)行預(yù)處理;
可視化模塊202,用于對圖文集合進(jìn)行可視化。
具體地,上述預(yù)處理模塊201中,將文本集合切分成詞,去除停用詞后得到文本特征詞,并計(jì)算詞語的權(quán)重;其中,停用詞指如“的”、“和”和“在”等一些介詞、語氣助詞和非常常用的字詞。將圖片集合中的重復(fù)圖片舍去,并計(jì)算余下圖片的權(quán)重。
可視化模塊202中,圖形化展示的視覺特點(diǎn)描述如下:
1.整體分布呈橢圓形;
2.特征詞的權(quán)重越大,字體越大,位置越靠原點(diǎn);
3.圖片的權(quán)重越大,位置越靠原點(diǎn);
4.緊鄰圖片的特征詞顏色為圖片的主色調(diào)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué),未經(jīng)清華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310538293.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 數(shù)據(jù)可視化模型的處理方法及裝置
- 一種可視化內(nèi)容分發(fā)方法及系統(tǒng)
- 數(shù)據(jù)可視化圖形快速應(yīng)用方法及系統(tǒng)
- 基于有效信息的流場可視化視圖量化方法
- 可視化報(bào)表的制作方法、裝置、終端設(shè)備及存儲(chǔ)介質(zhì)
- 一種可視化圖形快速應(yīng)用與傳輸?shù)姆椒跋到y(tǒng)
- 一種可視化數(shù)據(jù)模型編排系統(tǒng)和編排方法
- 一種供水行業(yè)機(jī)房3D可視化運(yùn)維管理系統(tǒng)
- 一種電網(wǎng)數(shù)據(jù)可視化方法、裝置、設(shè)備及介質(zhì)
- 一種大場景城市建筑實(shí)時(shí)三維可視化的方法
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





