[發(fā)明專利]宮廷服飾文本主題生成方法、裝置、電子設(shè)備及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 201811184543.8 | 申請日: | 2018-10-11 |
| 公開(公告)號: | CN109271519B | 公開(公告)日: | 2022-04-22 |
| 發(fā)明(設(shè)計(jì))人: | 趙海英 | 申請(專利權(quán))人: | 北京郵電大學(xué) |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289 |
| 代理公司: | 北京柏杉松知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11413 | 代理人: | 項(xiàng)京;馬敬 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 宮廷 服飾 文本 主題 生成 方法 裝置 電子設(shè)備 存儲 介質(zhì) | ||
本發(fā)明實(shí)施例提供了一種宮廷服飾文本主題生成方法、裝置、電子設(shè)備及存儲介質(zhì),其中,該方法包括:獲取待處理的多個文本單元,分別對多個文本單元進(jìn)行分詞,得到每個文本單元對應(yīng)的詞集合,針對每個文本單元,計(jì)算該各文本單元對應(yīng)的詞集合中包括的各詞的詞頻向量,并將各詞的詞頻向量組合得到該文本單元的詞頻向量,根據(jù)每個文本單元的詞頻向量,通過狄利克雷算法,計(jì)算每個文本單元的主題向量,根據(jù)每兩個文本單元的主題向量,對多個文本單元進(jìn)行聚類,得到包含多個文本單元集合的聚類結(jié)果,針對每個文本單元集合,將該文本單元集合的文本單元包含的詞中,詞頻向量大于預(yù)設(shè)詞頻向量門限值的詞,作為對應(yīng)各文本單元集合的主題。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域,特別是涉及一種宮廷服飾文本主題生成方法、裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù)
宮廷服飾是指皇朝歷史期間,皇帝、皇后以及皇室成員和文武大臣在各種場合穿著的服飾,主要包括禮服、吉服、常服、行服、雨服、便服等等。宮廷服飾綜合反映了宮廷文化、藝術(shù)、服裝制造業(yè)水平等。對于宮廷服飾,除存留了珍貴豐富的歷史實(shí)物外,還有大量的相關(guān)專著、論文、圖案介紹說明等文本資料。
由于關(guān)于宮廷服飾的文本資料之間存在復(fù)雜的關(guān)系,為了便于學(xué)者研究,需要對文本資料進(jìn)行聚類。并且,在對文本資料進(jìn)行聚類研究后,還需要確定各聚類的主題,以確定各聚類所反映的主要內(nèi)容。然而,現(xiàn)有技術(shù)中并沒有確定宮廷服飾文本聚類的主題的方法。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例的目的在于提供一種宮廷服飾文本主題生成方法、裝置、電子設(shè)備及存儲介質(zhì),以實(shí)現(xiàn)在對宮廷服飾文本聚類后,確定聚類的主題。具體技術(shù)方案如下:
第一方面,本發(fā)明實(shí)施例提供了一種宮廷服飾文本的主題生成方法,該方法包括:
獲取待處理的多個文本單元,分別對多個文本單元進(jìn)行分詞,得到每個文本單元對應(yīng)的詞集合;
針對每個文本單元,計(jì)算該各文本單元對應(yīng)的詞集合中包括的各詞的詞頻向量,并將各詞的詞頻向量組合得到該文本單元的詞頻向量;
根據(jù)每個文本單元的詞頻向量,通過狄利克雷算法,計(jì)算每個文本單元的主題向量;
根據(jù)每兩個文本單元的主題向量,對多個文本單元進(jìn)行聚類,得到包含多個文本單元集合的聚類結(jié)果;
針對每個文本單元集合,將該文本單元集合的文本單元包含的詞中,詞頻向量大于預(yù)設(shè)詞頻向量門限值的詞,作為對應(yīng)各文本單元集合的主題。
可選的,在針對每個文本單元,計(jì)算該各文本單元對應(yīng)的詞集合中包括的各詞的詞頻向量,并將各詞的詞頻向量組合得到該文本單元的詞頻向量之后,本發(fā)明實(shí)施例的一種宮廷服飾文本主題生成方法還包括:
通過TF-IDF算法對每個文本單元的詞頻向量進(jìn)行修正,得到每個文本單元修正后的詞頻向量;
相應(yīng)的,根據(jù)每個文本單元的詞頻向量,通過狄利克雷算法,計(jì)算每個文本單元的主題向量,包括:
根據(jù)每個文本單元修正后的詞頻向量,通過狄利克雷算法,計(jì)算每個文本單元的主題向量。
可選的,根據(jù)每兩個文本單元的主題向量,對多個文本單元進(jìn)行聚類,得到包含多個文本單元集合的聚類結(jié)果,包括:
根據(jù)每兩個文本單元的主題向量,計(jì)算每兩個文本單元之間的余弦距離;
以每個文本單元為頂點(diǎn),以每兩個文本單元之間的余弦距離為每兩個文本單元之間的邊,建立包含多個文本單元的網(wǎng)絡(luò)圖;
針對多個文本單元的網(wǎng)絡(luò)圖,通過Tabu搜索算法,對多個文本單元進(jìn)行聚類,得到包含多個文本單元集合的聚類結(jié)果。
可選的,以每個文本單元為頂點(diǎn),以每兩個文本單元之間的余弦距離為每兩個文本單元之間的邊,建立包含多個文本單元的網(wǎng)絡(luò)圖,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京郵電大學(xué),未經(jīng)北京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811184543.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





