[發明專利]用于文本挖掘的角K-均值在審
| 申請號: | 201810896161.1 | 申請日: | 2018-08-08 |
| 公開(公告)號: | CN109471882A | 公開(公告)日: | 2019-03-15 |
| 發明(設計)人: | P·泰勒達 | 申請(專利權)人: | 英特爾公司 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F16/28 |
| 代理公司: | 上海專利商標事務所有限公司 31100 | 代理人: | 高見;黃嵩泉 |
| 地址: | 美國加利*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據對象組 襯底 數據對象 文本挖掘 耦合 角距離 半導體封裝裝置 三角不等式 固定功能 硬件邏輯 可配置 邏輯或 上界 下界 指派 | ||
描述了用于文本挖掘的角K?均值。半導體封裝裝置的實施例可包括襯底;耦合至襯底的邏輯,其中該邏輯以可配置邏輯或固定功能硬件邏輯中的一個或多個來實現,耦合至襯底的邏輯用于:確定數據對象與數據對象組之間的角距離,以及基于所確定角距離將數據對象指派給數據對象組。在一些實施例中,邏輯可基于三角不等式確定數據對象組的上界和下界中的一個或多個。公開了其它的實施例并對其主張權利。
技術領域
各實施例一般涉及數據集處理。更具體地,各實施例涉及用于文本挖掘的角k-均值技術。
背景技術
在數據挖掘領域中,k-均值技術可指用于將數據分組至k個聚類的過程。標準k-均值技術可基于數據點之間的歐幾里德距離來對數據分組。球面k-均值技術可基于數據點之間的余弦相似度來對數據分組。
附圖說明
通過閱讀以下說明書和所附權利要求并通過參考以下附圖,各實施例的各種優點對于本領域技術人員將變得顯而易見,其中:
圖1是根據實施例的電子處理系統的示例的框圖;
圖2是根據實施例的半導體封裝裝置的示例的框圖;
圖3A至3C是根據實施例的對數據對象分組的方法的示例的流程圖;
圖4是根據實施例的數據分組器的示例的框圖;
圖5是根據實施例的三點之間三角不等式原理的示例的示例性示圖;
圖6是根據實施例的角k-均值技術的方法的示例的流程圖;
圖7和8是根據實施例的數據分組器裝置的示例的框圖;
圖9是根據實施例的處理器的示例的框圖;以及
圖10是根據實施例的系統的示例的框圖。
具體實施方式
現轉向圖1,電子處理系統10的實施例可包括:處理器11;存儲器12,該存儲器12通信地耦合至處理器11;以及邏輯13,該邏輯13通信地耦合至處理器11以確定數據對象與數據對象組之間的角距離,并且基于所確定角距離來將數據對象指派給數據對象組。例如,邏輯13可基于三角不等式確定數據對象組的上界和下界中的一個或多個。在一些實施例中,邏輯13可進一步被配置成確定數據對象是否位于數據對象組的上界與下界內,以及響應于數據對象被確定為位于數據對象組的上界與下界內來確定數據對象與數據對象組之間的角距離。邏輯13還可維持相應數據對象組之間的距離的k乘k矩陣,其中k對應于數據對象組的目標數量。在一些實施例中,邏輯13還可維持每個數據對象與每個數據對象組的相應下界的n乘k矩陣,以及維持每個數據對象的相應上界的大小為n的數組,其中n對應于數據集中數據對象的總數量,并且其中k對應于數據對象組的目標數量。在本文實施例中的任一個中,數據集可包括文本文檔集。
上述處理器11、存儲器12、邏輯13中每一個的實施例以及其他系統組件能以硬件、軟件或其任何合適組合來實現。例如,硬件實現可包括諸如例如可編程邏輯陣列(PLA)、場可編程門陣列(FPGA)、復雜可編程邏輯器件(CPLD)之類的可配置邏輯,或使用諸如例如專用集成電路(ASIC)、互補金屬氧化物半導體(CMOS)或晶體管-晶體管邏輯(TTL)技術之類的電路技術的固定功能邏輯硬件,或者其任何組合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于英特爾公司,未經英特爾公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810896161.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于時空掃描的網絡輿情預警監測方法
- 下一篇:個人征信報告分析平臺





