[發明專利]內置約束規則的k-means文本聚類方法及裝置有效
| 申請號: | 201711239513.8 | 申請日: | 2017-11-30 |
| 公開(公告)號: | CN107908771B | 公開(公告)日: | 2020-10-23 |
| 發明(設計)人: | 李德彥;晉耀紅;席麗娜 | 申請(專利權)人: | 鼎富智能科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62 |
| 代理公司: | 北京弘權知識產權代理事務所(普通合伙) 11363 | 代理人: | 逯長明;許偉群 |
| 地址: | 230000 安徽省合肥市*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 內置 約束 規則 means 文本 方法 裝置 | ||
1.一種內置約束規則的k-means文本聚類方法,其特征在于,包括以下步驟:
利用第一約束規則預處理待聚類文本集,得到與所述第一約束規則對應的第一預處理集合,符合所述第一約束規則的文本必須聚類到相同的類簇中,所述第一預處理集合包括符合對應的第一約束規則的文本;
獲取所述待聚類文本集中的k個文本作為簇心,k<N,N為待聚類文本集中文本的總數量;
如果簇心包含于第一預處理集合中,則將該第一預處理集合中除該簇心外的其余文本添加到與簇心對應的類簇中,清除所述待聚類文本集中已經添加到類簇中的文本;
將待聚類文本集中剩余的文本分別添加到與其距離最近的簇心所對應的類簇中;
重新計算每個類簇的新的簇心,如果新的簇心滿足預設的停止條件,則輸出全部類簇。
2.根據權利要求1所述的內置約束規則的k-means文本聚類方法,其特征在于,將待聚類文本集中剩余的文本分別添加到與其距離最近的簇心所對應的類簇中的步驟,包括:
計算待聚類文本集中的當前文本與每一個簇心的距離,將當前文本添加到與其距離最近的簇心所對應的類簇中;
如果當前文本包含于第一預處理集合中,則將該第一預處理集合中除當前文本外的其余文本添加到當前文本所在的類簇中,清除所述待聚類文本集中已經添加到類簇中的文本。
3.根據權利要求1或2所述的內置約束規則的k-means文本聚類方法,其特征在于,所述第一約束規則包括至少一個聚合詞袋,所述聚合詞袋包括至少一個預設的第一關鍵詞,當同一個聚合詞袋中的第一關鍵詞的數量≥2個時,所述聚合詞袋還包括第一關鍵詞之間的邏輯“與”的關系。
4.根據權利要求1所述的內置約束規則的k-means文本聚類方法,其特征在于,在獲取所述待聚類文本集中的k個文本作為簇心之前,還包括:
利用第二約束規則預處理待聚類文本集,得到與所述第二約束規則對應的第二預處理集合,所述第二約束規則包括兩個子規則,符合其中一個子規則的文本與符合另一個子規則的文本必須聚類到不同的類簇中,所述第二預處理集合包括兩個子集合,每一個所述子集合包括符合一個對應的子規則的文本;
將待聚類文本集中剩余的文本分別添加到與其距離最近的簇心所對應的類簇中的步驟,包括:
如果簇心包含于第二預處理集合的任一個子集合中,則將該第二預處理集合的另一個子集合中的文本添加到與該簇心對應的類簇互斥集合中;
如果待聚類文本集中的當前文本包含于x個類簇互斥集合中,則計算除類簇互斥集合所對應的簇心以外其他(k-x)個簇心與當前文本的距離,將當前文本添加到與其距離最近的簇心所對應的類簇中,其中,0<x<k;
如果待聚類文本集中的當前文本不包含于任何一個類簇互斥集合中,或者當前文本包含于全部類簇互斥集合中,則計算所有簇心與當前文本的距離,將當前文本添加到與其距離最近的簇心所對應的類簇中。
5.根據權利要求4所述的內置約束規則的k-means文本聚類方法,其特征在于,所述將待聚類文本集中剩余的文本分別添加到與其距離最近的簇心所對應的類簇中的步驟,還包括:
如果當前文本包含于第二預處理集合的任一個子集合中,則將該第二預處理集合的另一個子集合中的文本添加到與當前文本所屬類簇的簇心對應的類簇互斥集合中。
6.根據權利要求4或5所述的內置約束規則的k-means文本聚類方法,其特征在于,所述第二約束規則的子規則包括至少一個互斥詞袋,所述互斥詞袋包括至少一個預設的第二關鍵詞,當同一個互斥詞袋中的第二關鍵詞的數量≥2個時,所述互斥詞袋還包括所述第二關鍵詞之間的邏輯“與”的關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鼎富智能科技有限公司,未經鼎富智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711239513.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種照片搜索方法及移動終端
- 下一篇:WebSQL多功能序列實現方法及裝置





