[發(fā)明專利]面向專業(yè)領域的在線主題檢測方法有效
| 申請?zhí)枺?/td> | 201710186405.2 | 申請日: | 2017-03-26 |
| 公開(公告)號: | CN107066555B | 公開(公告)日: | 2020-03-17 |
| 發(fā)明(設計)人: | 喻梅;原旭瑩;于健;高潔;王建榮;辛偉 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 李素蘭 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 專業(yè) 領域 在線 主題 檢測 方法 | ||
1.一種面向專業(yè)領域的在線主題檢測方法,其特征在于,該方法包括以下步驟:
步驟一、對文本集進行包括文本分詞、過濾停用詞、計算TF/IDF值、文本特征向量化、標準化在內的預處理操作,得到文本集的文本向量矩陣A,A=(Wtw,d),其中Wtw,d表示單詞w在文本d中的權重,并在文本切分詞的時候從文本集中提取詞典;
步驟二、通過LDA主題模型對文本向量矩陣進行建模,建模的數(shù)學表示如下:
文本集是M個文本的集合,表示成D={d1,d2,d3,...,di},其中i∈M,di表示其中第i篇文本;
文本是K個主題的集合,表示成di={θ1,θ2,θ3,…,θn},其中n∈K,θn表示其中的第n個主題;
主題是t個單詞的集合,表示成θn={w1,w2,w3,…,wt},其中wt表示主題里的第t個詞;
將包含上萬個單詞的文本轉換成文本在主題上的映射和主題在單詞上的映射;
步驟三、通過Gibbs采樣來估計參數(shù)主題-詞語分布和文本-主題分布θ,得到文本d對主題θk的混合權重p(θk|d)和主題θk中特征詞ω出現(xiàn)的頻率p(ω|θk),對于每一個單一的樣本,可以按下式估算和θ,如公式(1)、公式(2)所示:
其中,表示主題j中單詞w的概率,nj(w)表示單詞w被分配給主題j的次數(shù),nj表示分配給主題j的所有次數(shù),V表示語料庫中所有單詞的個數(shù),表示文本d中主題j的概率,njd表示文本d中分配給主題j的次數(shù),nd表示文本d中所有被分配了主題的次數(shù),T表示主題總數(shù),α和β表示按時間順序變化控制和的超參數(shù);
步驟四、使用主題距離的度量公式計算文本相似度矩陣,文本間基于主題模型的主題距離定義為文本向量的相對熵距離,任意兩個文本di和dj之間的相似度計算如下式所示:
步驟五、使用CVM壓縮算法對文本集中大規(guī)模的文本數(shù)據(jù)集進行壓縮,得到新的文本樣本集;
步驟六、根據(jù)公式(3)計算新的文本樣本集的相似度矩陣,并根據(jù)此相似度矩陣選擇偏向參數(shù)p,偏向參數(shù)空間為[-∞,0],首先將偏向參數(shù)的值設為-1,即p=-1,在AP算法的迭代過程中不斷優(yōu)化聚類結果;
步驟七、對步驟六得到的相似度矩陣利用AP算法進行聚類,得到新的樣本文本集的聚類中心和聚類結果;
步驟八、選擇參數(shù)T,調用基于距離的merge過程對步驟七的聚類結果進行合并處理,產生新的聚類中心和聚類結果;
步驟九、計算原文本集中所有文本與壓縮后已經分類出的文本的距離,距離哪個文本最近,則將其與這個文本歸為一類;
步驟十、輸出文本集的主題以及最終聚類結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710186405.2/1.html,轉載請聲明來源鉆瓜專利網。





