[發(fā)明專利]用于語料庫的主題聚類模型構(gòu)建系統(tǒng)及其構(gòu)建方法在審
| 申請?zhí)枺?/td> | 201710306329.4 | 申請日: | 2017-05-04 |
| 公開(公告)號: | CN107247701A | 公開(公告)日: | 2017-10-13 |
| 發(fā)明(設(shè)計)人: | 王宇;蔡振華;李稀敏;肖龍源;劉楚;朱敬華;劉曉葳;譚玉坤 | 申請(專利權(quán))人: | 廈門快商通科技股份有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 361009 福建省廈門*** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 語料庫 主題 模型 構(gòu)建 系統(tǒng) 及其 方法 | ||
1.一種用于語料庫的主題聚類模型構(gòu)建系統(tǒng),其特征在于,包括:
主題提取模塊,對語料庫中的每篇文檔進(jìn)行抽取主題;
詞語提取模塊,對抽取的每個主題進(jìn)行抽取詞語;
詞語關(guān)聯(lián)模塊,對抽取的每個詞語進(jìn)行添加關(guān)聯(lián)詞語;
分布統(tǒng)計模塊,根據(jù)每篇文檔抽取的主題,得到文檔的主題分布;根據(jù)每個主題抽取的詞語以及每個詞語對應(yīng)的關(guān)聯(lián)詞語,得到主題的詞語分布;
概率統(tǒng)計模塊,根據(jù)文檔的主題分布和主題的詞語分布,計算得到每個文檔中的每個詞語的概率值;
結(jié)果輸出模塊,將每個文檔中的概率值最大的詞語作為該文檔的主題名稱,并以該主題名稱為標(biāo)識對語料庫中的每篇文檔進(jìn)行聚類。
2.根據(jù)權(quán)利要求1所述的一種用于語料庫的主題聚類模型構(gòu)建系統(tǒng),其特征在于:每篇文檔與T個主題的一個多項分布相對應(yīng);每個主題進(jìn)一步與所述詞語和所述關(guān)聯(lián)詞語的詞語集合中的V個詞語的一個多項分布相對應(yīng)。
3.根據(jù)權(quán)利要求1所述的一種用于語料庫的主題聚類模型構(gòu)建系統(tǒng),其特征在于:所述詞語關(guān)聯(lián)模塊中,所述關(guān)聯(lián)詞語包括:同義詞關(guān)聯(lián)詞語、近義詞關(guān)聯(lián)詞語、自定義關(guān)聯(lián)詞語。
4.根據(jù)權(quán)利要求3所述的一種用于語料庫的主題聚類模型構(gòu)建系統(tǒng),其特征在于:所述自定義關(guān)聯(lián)詞語,是指將當(dāng)前文檔相關(guān)聯(lián)的外部文檔作為關(guān)聯(lián)文檔,通過該關(guān)聯(lián)文檔進(jìn)行查找所述詞語的關(guān)聯(lián)詞語。
5.根據(jù)權(quán)利要求1所述的一種用于語料庫的主題聚類模型構(gòu)建系統(tǒng),其特征在于:所述概率統(tǒng)計模塊中,進(jìn)一步包括:
根據(jù)文檔的主題分布得到每個文檔中的每個主題的概率值p(t|d);
根據(jù)主題的詞語分布得到每個主題中的每個詞語的概率值p(w|t);
將每個詞語的概率值乘以該詞語對應(yīng)主題的概率值計算得到每個文檔中的每個詞語的概率值p(w|d);即:p(w|d)=p(w|t)*p(t|d)。
6.一種用于語料庫的主題聚類模型的構(gòu)建方法,其特征在于,包括以下步驟:
(10)對語料庫中的每篇文檔進(jìn)行抽取主題;
(20)對抽取的每個主題進(jìn)行抽取詞語;
(30)對抽取的每個詞語進(jìn)行添加關(guān)聯(lián)詞語;
(40)根據(jù)每篇文檔抽取的主題,得到文檔的主題分布;根據(jù)每個主題抽取的詞語以及每個詞語對應(yīng)的關(guān)聯(lián)詞語,得到主題的詞語分布;
(50)根據(jù)文檔的主題分布和主題的詞語分布,計算得到每個文檔中的每個詞語的概率值;
(60)將每個文檔中的概率值最大的詞語作為該文檔的主題名稱,并以該主題名稱為標(biāo)識對語料庫中的每篇文檔進(jìn)行聚類。
7.根據(jù)權(quán)利要求6所述的一種用于語料庫的主題聚類模型的構(gòu)建方法,其特征在于:所述的步驟(10)中,每篇文檔與T個主題的一個多項分布相對應(yīng);所述的步驟(20)和步驟(30)中,每個主題進(jìn)一步與所述詞語和所述關(guān)聯(lián)詞語的詞語集合中的V個詞語的一個多項分布相對應(yīng)。
8.根據(jù)權(quán)利要求6所述的一種用于語料庫的主題聚類模型的構(gòu)建方法,其特征在于:所述的步驟(30)中,所述關(guān)聯(lián)詞語包括:同義詞關(guān)聯(lián)詞語、近義詞關(guān)聯(lián)詞語、自定義關(guān)聯(lián)詞語;其中,所述自定義關(guān)聯(lián)詞語,是指將當(dāng)前文檔相關(guān)聯(lián)的外部文檔作為關(guān)聯(lián)文檔,通過該關(guān)聯(lián)文檔進(jìn)行查找所述詞語的關(guān)聯(lián)詞語。
9.根據(jù)權(quán)利要求6所述的一種用于語料庫的主題聚類模型的構(gòu)建方法,其特征在于:所述的步驟(50)中,進(jìn)一步包括:
(51)根據(jù)文檔的主題分布得到每個文檔中的每個主題的概率值p(t|d);
(52)根據(jù)主題的詞語分布得到每個主題中的每個詞語的概率值p(w|t);
(53)將每個詞語的概率值乘以該詞語對應(yīng)主題的概率值計算得到每個文檔中的每個詞語的概率值p(w|d);即:p(w|d)=p(w|t)*p(t|d)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廈門快商通科技股份有限公司,未經(jīng)廈門快商通科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710306329.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





