[發明專利]基于知識圖譜的文本聚類方法、裝置及可讀存儲介質有效
| 申請號: | 201811323010.3 | 申請日: | 2018-11-07 |
| 公開(公告)號: | CN109543034B | 公開(公告)日: | 2021-07-16 |
| 發明(設計)人: | 任江濤;麥振生 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36 |
| 代理公司: | 深圳市世紀恒程知識產權代理事務所 44287 | 代理人: | 胡海國;於菪珉 |
| 地址: | 510275 *** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 知識 圖譜 文本 方法 裝置 可讀 存儲 介質 | ||
本發明公開了一種基于知識圖譜的文本聚類方法,包括以下步驟:獲取原始文本,并確定所述原始文本的待抽取要素類型;根據所述待抽取要素類型抽取所述原始文本的文本要素;統計所述文本要素間的交互關系,并根據統計結果計算所述交互關系的歸一化概率;根據所述歸一化概率構建知識圖譜,并根據所述知識圖譜對所述原始文本進行聚類。本發明還公開了一種基于知識圖譜的文本聚類裝置及計算機可讀存儲介質。本發明通過歸一化概率構建知識圖譜,進而根據知識圖譜對原始文本進行自動聚類,解決人工分類效率低,成本高的技術問題。
技術領域
本發明涉及自然語言處理技術領域,尤其涉及一種基于知識圖譜的文本聚類方法、裝置及計算機可讀介質。
背景技術
城市新聞,是一座城市里居住生活的人所產生的活動的外在表現,很大程度上反映了一個城市的精神內涵與內在規律。同時因為其公開性,使得新聞的獲取成本很低。對大量新聞文本進行充分處理、分析、挖掘,找出新聞之間的關聯,知曉并掌握城市的內在運作規律,對政策制定、輿情監控、城市發展規劃等具有重要的現實意義。
由于新聞本身的客觀性要求,導致新聞文本的離散程度較大,因此從表面上看起來沒有關聯。若是由相關從業人員進行分析挖掘,則需要在日常工作中耗費大量時間精力對新聞進行廣度和深度上的挖掘,對從業人員的專業要求及經驗積累要求較高,使得新聞分析從業成本較高。
在現有技術中,一般通過統計的方法實現對文本數據進行分類,這樣導致只能獲取所述文本數據中已知維數的分類結果。
發明內容
本發明的主要目的在于提供一種基于知識圖譜的文本聚類方法、裝置及存儲介質,旨在實現根據文本內容進行深度分析,并根據分析結果進行自動聚類。
為實現上述目的,本發明提供一種基于知識圖譜的文本聚類方法,所述基于知識圖譜的文本聚類方法包括以下步驟:
獲取原始文本,并確定所述原始文本的待抽取要素類型;
根據所述待抽取要素類型抽取所述原始文本的文本要素;
統計所述文本要素間的交互關系,并根據統計結果計算所述交互關系的歸一化概率;
根據所述歸一化概率構建知識圖譜,并根據所述知識圖譜對所述原始文本進行聚類。
優選地,所述原始文本為新聞文本,所述待抽取要素類型涉及地點、涉及機構、涉及人物、涉及時間及/或新聞主題。
優選地,所述根據所述待抽取要素類型抽取所述原始文本的文本要素的步驟包括:
通過詞典匹配技術和命名實體識別技術抽取所述新聞文本中的所述涉及地點及/或涉及機構;
通過所述命名實體識別技術抽取所述新聞文本中的所述涉及人物;
通過正則匹配抽取所述新聞文本中的所述涉及時間;
通過調用分類算法確定所述新聞文本的新聞主題。
優選地,所述統計所述文本要素間的交互關系,并根據統計結果計算所述交互關系的歸一化概率的步驟包括:
獲取所述文本要素間的交互關系,并統計所述交互關系的出現次數;
根據所述交互關系的出現次數計算所述交互關系的所述歸一化概率。
優選地,所述根據所述交互關系的出現次數計算所述交互關系的所述歸一化概率的步驟包括:
根據所述交互關系的出現次數確定與預設文本要素關聯的交互關系總數,及預設交互關系總數;
根據所述與預設文本要素關聯的交互關系總數,及所述預設交互關系總數計算所述交互關系的所述歸一化概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811323010.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:動態異質網絡演化聚類分析方法
- 下一篇:一種針對商品評價進行聚類分析的方法





