[發明專利]宮廷服飾文本主題生成方法、裝置、電子設備及存儲介質有效
| 申請號: | 201811184543.8 | 申請日: | 2018-10-11 |
| 公開(公告)號: | CN109271519B | 公開(公告)日: | 2022-04-22 |
| 發明(設計)人: | 趙海英 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289 |
| 代理公司: | 北京柏杉松知識產權代理事務所(普通合伙) 11413 | 代理人: | 項京;馬敬 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 宮廷 服飾 文本 主題 生成 方法 裝置 電子設備 存儲 介質 | ||
1.一種宮廷服飾文本的主題生成方法,其特征在于,所述方法包括:
獲取待處理的多個文本單元,分別對所述多個文本單元進行分詞,得到每個文本單元對應的詞集合;
針對所述每個文本單元,計算該各文本單元對應的詞集合中包括的各詞的詞頻向量,并將所述各詞的詞頻向量組合得到該文本單元的詞頻向量;
根據所述每個文本單元的詞頻向量,按照如下公式所示的狄利克雷算法,計算所述每個文本單元的主題向量:
其中,θ表示主題向量,z表示主題,w表示單詞,α表示向量參數,β表示各主題對應的單詞概率分布矩陣,p(θ,z,w|α,β)表示給定α、β時主題向量、主題和單詞的聯合概率分布,p(θ|α)表示給定α時主題向量θ的條件概率分布,p(zn|θ)表示以主題向量θ為條件時第n個主題zn的條件概率分布,p(wn|zn,β)表示給定β和第n個主題zn時第n個單詞wn的條件概率分布,zn表示一個文本單元的第n個主題,wn表示一個文本單元的第n個單詞,表示N個主題的p(zn|θ)與p(θ,z,w|α,β)的乘積,N表示主題的數量;
根據每兩個文本單元的主題向量,計算所述每兩個文本單元之間的余弦距離;以所述每個文本單元為頂點,以大于或等于預設距離門限值的所述每兩個文本單元之間的余弦距離,作為所述每兩個文本單元之間的邊,建立包含所述多個文本單元的網絡圖;針對所述多個文本單元的網絡圖,通過Tabu搜索算法,對所述多個文本單元進行聚類,得到包含多個文本單元集合的聚類結果;
針對每個文本單元集合,將該文本單元集合的文本單元包含的詞中,詞頻向量大于預設詞頻向量門限值的詞,作為對應各文本單元集合的主題。
2.根據權利要求1所述的方法,其特征在于,在所述針對所述每個文本單元,計算該各文本單元對應的詞集合中包括的各詞的詞頻向量,并將所述各詞的詞頻向量組合得到該文本單元的詞頻向量之后,所述方法還包括:
通過TF-IDF算法對每個文本單元的詞頻向量進行修正,得到所述每個文本單元修正后的詞頻向量;
相應的,所述根據所述每個文本單元的詞頻向量,通過狄利克雷算法,計算所述每個文本單元的主題向量,包括:
根據所述每個文本單元修正后的詞頻向量,通過狄利克雷算法,計算所述每個文本單元的主題向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811184543.8/1.html,轉載請聲明來源鉆瓜專利網。





