[發明專利]一種用于子話題劃分的誘導劃分方法有效
| 申請號: | 201710587046.1 | 申請日: | 2017-07-18 |
| 公開(公告)號: | CN107391660B | 公開(公告)日: | 2021-05-11 |
| 發明(設計)人: | 續欣瑩;蘇婧瓊;鄒雪君;謝珺 | 申請(專利權)人: | 太原理工大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289;G06K9/62 |
| 代理公司: | 太原市科瑞達專利代理有限公司 14101 | 代理人: | 盧茂春 |
| 地址: | 030024 山西*** | 國省代碼: | 山西;14 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 話題 劃分 誘導 方法 | ||
1.一種用于子話題劃分的誘導劃分方法,其特征在于包括下述內容:
(1)文本預處理:即從新聞語料庫中隨機挑選某一熱點話題若干篇,進行人工標注,并采用ICTCLAS系統對文檔進行分詞和去停用詞;
(2)LDA主題建模對語料庫進行建模:即采用Gibbs抽樣算法,提取語料庫中的隱含主題,得到“文檔-主題”矩陣θ,對矩陣設定閾值δ,δ為0~1的任意小數;
(3)全覆蓋粒計算的知識約簡:利用全覆蓋粒計算模型表征設置閾值后的矩陣,用粒計算的方法將冗余話題刪除,將詞項空間表達的文檔約簡為主題空間的低維表達,從而達到了降維的目的;
(4)誘導劃分:將刪除冗余覆蓋元之后的結果作為誘導劃分的輸入,通過改進的誘導劃分方法,得到誘導等價類,從而實現誘導劃分;
(5)子話題劃分:將誘導等價類中的每一類作為一個子話題,誘導等價類中集合的個數對應子話題的個數,將同一集合中的文檔劃分為同一個子話題,實現語料庫中新聞文檔的子話題劃分;
文檔中主題的概率ρδ時,δ為0~1的任意小數,矩陣θ為1,文檔中主題的概率ρ<δ時,矩陣θ為0;
改進的誘導劃分步驟是:
步驟1:確定論域和覆蓋元;
步驟2:計算論域中每個元素的鄰域系統;
步驟3:將具有相同鄰域系統的元素進行重新組合和劃分,產生新覆蓋元,并將覆蓋元和新覆蓋元視為粒結構;
步驟4:在粒結構中根據誘導覆蓋的定義尋找誘導等價類,實現誘導劃分。
2.如權利要求1所述的一種用于子話題劃分的誘導劃分方法,其特征在于:粒結構的定義:設是非空論域U上的一個全覆蓋,每個覆蓋元是一個生成粒;生成粒之間不斷進行交運算和對稱差運算,產生的新的粒加入生成粒中,同時與其他粒也進行上述運算,最終形成一個閉合的結構,這樣的結構叫做粒結構。
3.如權利要求1所述的一種用于子話題劃分的誘導劃分方法,其特征在于:子話題劃分的誘導劃分評價指標包括丟失率Pmiss、誤報率Pfa和錯誤識別代價Cdet,a表示未檢測到的與話題i相關的新聞數,b表示與話題i相關的新聞數;
c表示檢測到的與話題i不相關的新聞數,d表示與話題i不相關的新聞數;
錯誤識別代價Cdet=Cmiss×Pmiss×Ptarget+Cfa×Pfa×Pnon-target
式中Cmiss為1,Cmiss表示丟失一個相關新聞的代價;
Cfa為0.1,Cfa表示誤報一個相關新聞的代價;
Ptarget為0.02,Ptarget表示一個新聞與目標話題相關的先驗概率;
Pnon-target為0.98,Pnon-target表示一個新聞與目標話題不相關的先驗概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于太原理工大學,未經太原理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710587046.1/1.html,轉載請聲明來源鉆瓜專利網。





