[發明專利]一種變粒度文本聚類的特征量化方法無效
| 申請號: | 200810209525.0 | 申請日: | 2008-11-26 |
| 公開(公告)號: | CN101436201A | 公開(公告)日: | 2009-05-20 |
| 發明(設計)人: | 劉遠超;劉銘;王曉龍 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 哈爾濱市哈科專利事務所有限責任公司 | 代理人: | 劉 婭 |
| 地址: | 150001黑龍江*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 粒度 文本 特征 量化 方法 | ||
1、一種變粒度文本聚類的特征量化方法,其特征在于它通過下述步驟實現:1)文檔關鍵詞的概念擴展,利用知網,將文檔中的關鍵詞集合擴展為另外一個具有更高語義覆蓋能力的概念詞集合;2)特征表示和相似度計算:詞與詞之間的相似度為其公共特征的重合度有多大,文本聚類應用中文檔之間以及文檔簇之間的相似度大小也可以通過考察文檔之間公共特征的多少來判定;3)變粒度文本聚類特征量化技術與具體聚類算法進行結合使用,達到變粒度聚類的效果。
2、根據權利要求1所述的一種變粒度文本聚類的特征量化方法,其特征在于所述的通過綜合單純基于詞頻的相似度和基于特征擴展策略的相似度來計算兩篇文檔的綜合相似度,定義文檔d1和d2的綜合相似度sim(d1,d2)為
sim(d1,d2)=γ*sfm1(d1,d2)+(1-γ)sim2(d1,d2)。
3、根據權利要求1所述的一種變粒度文本聚類的特征量化方法,其特征在于所述的每個神經元在兩種不同特征空間上的向量構造與標準SOM方法完全相同,即都初始化為隨機小數構成的向量,在模型訓練過程中網絡結構的動態更新時,網絡結構調整和神經元向量的調整反映的是兩個不同空間的語義相似度的線型加權值,模型訓練結束后,每個神經元對應兩個向量,一個為這個神經元節點所映射的全部文檔詞頻向量的均值;另外一個是這個神經元節點所映射的全部特征擴展向量的均值。
4、根據權利要求1所述的一種變粒度文本聚類的特征量化方法,其特征在于所述的文檔語義特征擴展的具體措施可以為:
1)找到文中重要的內容詞,找到每個重要內容詞所映射的上位概念,將其上位概念詞放到概念向量中;
2)將每個重要內容詞的領域相關詞,將領域相關的代表詞放到概念向量中。
5、根據權利要求1所述的一種變粒度文本聚類的特征量化方法,其特征在于所述的詞一級的語義擴展主要利用詞的語義關系,將具有較強相關性的詞則擴展為能覆蓋其公共特征的詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810209525.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:剖腹產手術刀片
- 下一篇:一種便于洗滌的儲水灌溉裝置





