[發(fā)明專利]一種文本集合相似性的可視化方法和裝置有效
| 申請?zhí)枺?/td> | 201310022589.0 | 申請日: | 2013-01-22 |
| 公開(公告)號: | CN103077157A | 公開(公告)日: | 2013-05-01 |
| 發(fā)明(設(shè)計(jì))人: | 唐家渝;孫茂松;劉知遠(yuǎn) | 申請(專利權(quán))人: | 清華大學(xué) |
| 主分類號: | G06F17/21 | 分類號: | G06F17/21 |
| 代理公司: | 西安智大知識產(chǎn)權(quán)代理事務(wù)所 61215 | 代理人: | 賈玉健 |
| 地址: | 100084 北京市海淀區(qū)1*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 集合 相似性 可視化 方法 裝置 | ||
1.一種文本集合相似性的可視化方法,其特征在于,所述方法包括:?
對文本集合進(jìn)行預(yù)處理,以得到文本集合的特征詞及特征詞的權(quán)重;?
對文本集合的相似度進(jìn)行計(jì)算;?
對文本集合的相似性進(jìn)行可視化。?
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)處理包括:?
將文本集合中的句子切分成詞;去除停用詞得到文本集合的特征詞;并通過出現(xiàn)頻次計(jì)算得到特征詞的權(quán)重。?
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對文本集合的相似度進(jìn)行計(jì)算,具體包括:?
構(gòu)建用于文本集合相似度計(jì)算的模型;利用構(gòu)建出的相似度計(jì)算模型和通過預(yù)處理得到的文本集合的特征詞及其權(quán)重,計(jì)算文本集合的相似度。?
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述模型使用康奈爾大學(xué)計(jì)算機(jī)系開發(fā)的SVMrank工具包進(jìn)行構(gòu)建,采用兩個文本集合的含權(quán)重特征詞組的余弦相似度、共同特征詞個數(shù)、共同特征詞個數(shù)分別與兩個特征詞組的大小比值這4個特征作為構(gòu)建參數(shù),然后,利用SVMrank工具包計(jì)算出兩組特征詞的相似度v,文本集合的相似度?。
5.根據(jù)權(quán)利要求1至4任一權(quán)利要求所述的方法,其特征在于,所述對文本集合的相似性進(jìn)行可視化包括:?
計(jì)算特征詞在圖形展示中布局信息;利用計(jì)算出的布局信息圖形化展示文本集合的相似性。?
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述圖形化展示的視覺特點(diǎn)為:?
特征詞整體分布呈橢圓形,字體越大,位置越靠近原點(diǎn);共同特征詞以顏?色1表示,字體大小與特征詞的權(quán)重以及文本集合A與B的相似度大小相關(guān),并且比非共同特征詞字體大,以突顯共同特征詞;文本集合A的非共同特征詞以顏色2表示,字體大小與特征詞的權(quán)重相關(guān);文本集合B的非共同特征詞以顏色3表示,字體大小與特征詞的權(quán)重相關(guān);文本集合A和B的非共同特征詞的邊界,在保證圖形輪廓規(guī)則性的基礎(chǔ)上,與非共同特征詞組的大小相關(guān)。?
7.一種文本集合相似性的可視化裝置,其特征在于,所述裝置包括:?
預(yù)處理模塊,用于將待可視化的原始數(shù)據(jù)進(jìn)行預(yù)處理,獲得文本集合的特征詞及特征詞的權(quán)重;?
文本相似性計(jì)算模塊,用于計(jì)算文本集合的相似度;?
可視化模塊,用于利用上述結(jié)果數(shù)據(jù)進(jìn)行信息可視化,呈現(xiàn)出文本集合的相似性。?
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述預(yù)處理模塊包括:?
分詞單元,用于將文本集合進(jìn)行分詞并去掉停用詞,獲得獨(dú)立的特征詞組;?
詞語權(quán)重計(jì)算單元,用于計(jì)算文本集合的特征詞的權(quán)重。?
9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述文本相似性計(jì)算模塊包括:?
計(jì)算模型構(gòu)建單元,用于通過標(biāo)注的文本語料構(gòu)建用于文本集合相似度計(jì)算的模型;?
計(jì)算單元,用于利用構(gòu)建出的相似度計(jì)算模型和通過預(yù)處理模塊得到的文本集合特征詞及權(quán)重,計(jì)算文本集合的相似度。?
10.根據(jù)權(quán)利要求7至9任一權(quán)利要求所述的裝置,其特征在于,所述可視化模塊包括:?
布局計(jì)算單元,用于計(jì)算出每個特征詞在圖形展示中的布局信息;?
圖形界面單元,用于利用計(jì)算出的布局信息生成圖片,并顯示在瀏覽設(shè)備中。?
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,布局計(jì)算單元計(jì)算出的布?局信息特點(diǎn)包括:?
特征詞整體分布呈橢圓形,字體越大,位置越靠近原點(diǎn);共同特征詞以顏色1表示,字體大小與特征詞的權(quán)重以及文本集合A與B的相似度大小相關(guān),并且比非共同特征詞字體大,以突顯共同特征詞;文本集合A的非共同特征詞以顏色2表示,字體大小與特征詞的權(quán)重相關(guān);文本集合B的非共同特征詞以顏色3表示,字體大小與特征詞的權(quán)重相關(guān);文本集合A和B的非共同特征詞的邊界,在保證圖形輪廓規(guī)則性的基礎(chǔ)上,與非共同特征詞組的大小相關(guān)。?
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué),未經(jīng)清華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310022589.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 基于異類關(guān)系確定目標(biāo)相似性的方法和系統(tǒng)
- 相似性匹配系統(tǒng)和方法
- 相似性匹配系統(tǒng)和方法
- 興趣點(diǎn)預(yù)測和推薦中的用戶時空相似性度量方法
- 一種基于相似性和邏輯矩陣分解的miRNA?疾病關(guān)聯(lián)關(guān)系預(yù)測方法
- 一種結(jié)合二分網(wǎng)絡(luò)和文本的醫(yī)院科室相似性分析方法
- 一種基于相似性學(xué)習(xí)及其增強(qiáng)的細(xì)胞類型鑒定方法
- 確定企業(yè)屬性相似性、重名對象判定
- 獲取機(jī)構(gòu)技術(shù)相似性的方法及裝置
- 一種基于圖卷積神經(jīng)網(wǎng)絡(luò)的lncRNA-蛋白質(zhì)相互作用預(yù)測方法
- 數(shù)據(jù)可視化模型的處理方法及裝置
- 一種可視化內(nèi)容分發(fā)方法及系統(tǒng)
- 數(shù)據(jù)可視化圖形快速應(yīng)用方法及系統(tǒng)
- 基于有效信息的流場可視化視圖量化方法
- 可視化報表的制作方法、裝置、終端設(shè)備及存儲介質(zhì)
- 一種可視化圖形快速應(yīng)用與傳輸?shù)姆椒跋到y(tǒng)
- 一種可視化數(shù)據(jù)模型編排系統(tǒng)和編排方法
- 一種供水行業(yè)機(jī)房3D可視化運(yùn)維管理系統(tǒng)
- 一種電網(wǎng)數(shù)據(jù)可視化方法、裝置、設(shè)備及介質(zhì)
- 一種大場景城市建筑實(shí)時三維可視化的方法





