[發明專利]一種基于概念信息和詞權重的主題生成方法有效
| 申請號: | 202010150731.X | 申請日: | 2020-03-06 |
| 公開(公告)號: | CN111460079B | 公開(公告)日: | 2023-03-28 |
| 發明(設計)人: | 蔡毅;張華奎 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F40/295;G06F40/216 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 裴磊磊 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 概念 信息 權重 主題 生成 方法 | ||
1.一種基于概念信息和詞權重的主題生成方法,其特征在于,包括步驟:
對于一個文本語料庫D,識別出文本語料庫中每一篇文檔m中的實體;
對于識別出的所有實體,在知識庫中檢索每個實體的概念信息;
對語料庫D中的每一篇文檔m進行預處理;
使用DCEP詞權重方案對語料庫D中的每一篇文檔m進行處理,并構建成為新的語料庫D′;
所述使用DCEP詞權重方案對每一篇文檔m的處理的步驟中,包括步驟:
設置超參數nc,檢查文檔m中每個概念下的所有實體,將每一篇文檔中每個概念下的實體數量與nc進行比較:
如果一個概念下的實體數量低于nc,則無需將該概念添加到概念集Hm中;
如果一個概念hm,i下的實體數量nm,i存在nm,i≥nc,則將該概念添加到概念集Hm中,并將該概念下的實體構成實體集T′m,i,該篇文檔中的其他實體組成實體集T″m,i;
將文檔m復制|Hm|次,構造新的文檔副本列表來替換原始文檔m,|Hm|表示概念集的大小值;
在每個文檔副本m′i∈m′中,改變每個單詞的頻率;
如果|Hm|=0,表示文檔m中沒有概念下的實體的數量nm,i≥nc,則不會復制該文檔,改變每個單詞的頻率;
將DCEP詞權重方案處理后得到的文檔組成新的語料庫D′;
所述在每個文檔副本m′i∈m′中,改變每個單詞的頻率的步驟中,單詞頻率具體改變方法為:
其中,表示經過DCEP方案處理后文檔副本m′i中詞語w的詞頻,Nm,i,w表示原始的文檔副本m′i中詞語w的詞頻,/表示原始的文檔副本m′i中詞語的最大詞頻,Tm,i是文檔副本m′i中普通單詞的集合;
將新的語料庫D′輸入到標準的LDA主題模型中,生成主題。
2.根據權利要求1所述的方法,其特征在于,所述預處理包括分詞、詞形還原、去除停用詞以及去除出現文檔數過少的詞語。
3.根據權利要求1所述的方法,其特征在于,所述|Hm|=0時,則不會復制該文檔,改變每個單詞的頻率的步驟中,單詞頻率改變方法具體為:將文檔中每種實體的詞頻加上文檔的最大詞頻,計算公式如下:
其中,和Nm,w分別是經過DCEP方案和未經過DCEP方案處理的文檔m中詞語w的詞頻,T′m代表文檔m中的實體集,Tm代表文檔m中的普通單詞集合。/
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010150731.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種組件化仿真建模方法及系統
- 下一篇:一種仿布植絨面料制作方法
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





