[發明專利]基于知識圖譜的文本聚類方法、裝置及可讀存儲介質有效
| 申請號: | 201811323010.3 | 申請日: | 2018-11-07 |
| 公開(公告)號: | CN109543034B | 公開(公告)日: | 2021-07-16 |
| 發明(設計)人: | 任江濤;麥振生 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36 |
| 代理公司: | 深圳市世紀恒程知識產權代理事務所 44287 | 代理人: | 胡海國;於菪珉 |
| 地址: | 510275 *** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 知識 圖譜 文本 方法 裝置 可讀 存儲 介質 | ||
1.一種基于知識圖譜的文本聚類方法,其特征在于,所述基于知識圖譜的文本聚類方法包括以下步驟:
獲取原始文本,并確定所述原始文本的待抽取要素類型;
根據所述待抽取要素類型抽取所述原始文本的文本要素;
獲取所述文本要素間的交互關系,并統計所述交互關系的出現次數;
根據所述交互關系的出現次數確定與預設文本要素關聯的交互關系總數,及預設交互關系總數;
根據所述與預設文本要素關聯的交互關系總數,及所述預設交互關系總數計算所述交互關系的歸一化概率;
根據所述歸一化概率構建知識圖譜,并根據所述知識圖譜對所述原始文本進行聚類。
2.如權利要求1所述的基于知識圖譜的文本聚類方法,其特征在于,所述原始文本為新聞文本,所述待抽取要素類型包括涉及地點、涉及機構、涉及人物、涉及時間及/或新聞主題。
3.如權利要求2所述的基于知識圖譜的文本聚類方法,其特征在于,所述根據所述待抽取要素類型抽取所述原始文本的文本要素的步驟包括:
通過詞典匹配技術和命名實體識別技術抽取所述新聞文本中的所述涉及地點及/或涉及機構;
通過所述命名實體識別技術抽取所述新聞文本中的所述涉及人物;
通過正則匹配抽取所述新聞文本中的所述涉及時間;
通過調用分類算法確定所述新聞文本的新聞主題。
4.如權利要求1所述的基于知識圖譜的文本聚類方法,其特征在于,所述根據所述歸一化概率構建知識圖譜,并根據所述知識圖譜對所述原始文本進行聚類的步驟包括:
通過預設算法及所述歸一化概率模擬信息流動;
根據模擬結果及信息傳遞聚類算法對所述原始文本進行聚類。
5.如權利要求4所述的基于知識圖譜的文本聚類方法,其特征在于,所述預設算法為Node2vec算法。
6.如權利要求4所述的基于知識圖譜的文本聚類方法,其特征在于,所述信息傳遞聚類算法為AP聚類算法。
7.一種基于知識圖譜的文本聚類裝置,其特征在于,所述基于知識圖譜的文本聚類裝置包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的文本聚類程序,所述文本聚類程序被所述處理器執行時實現如權利要求1至6中任一項所述的基于知識圖譜的文本聚類方法的步驟。
8.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質上存儲有文本聚類程序,所述文本聚類程序被處理器執行時實現如權利要求1至6中任一項所述的基于知識圖譜的文本聚類方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811323010.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:動態異質網絡演化聚類分析方法
- 下一篇:一種針對商品評價進行聚類分析的方法





