[發明專利]用于語料庫的主題聚類模型構建系統及其構建方法在審
| 申請號: | 201710306329.4 | 申請日: | 2017-05-04 |
| 公開(公告)號: | CN107247701A | 公開(公告)日: | 2017-10-13 |
| 發明(設計)人: | 王宇;蔡振華;李稀敏;肖龍源;劉楚;朱敬華;劉曉葳;譚玉坤 | 申請(專利權)人: | 廈門快商通科技股份有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 361009 福建省廈門*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 語料庫 主題 模型 構建 系統 及其 方法 | ||
技術領域
本發明涉及人工智能技術領域,特別是一種用于語料庫的主題聚類模型構建系統及對應的方法。
背景技術
語料庫是指經科學取樣和加工的大規模電子文本庫。語料庫是語料庫語言學研究的基礎資源,也是經驗主義語言研究方法的主要資源,廣泛應用于詞典編纂,語言教學,傳統語言研究,自然語言處理中基于統計或實例的研究等方面。在智能對話或其它有應用到人工智能對話技術、機器人客服等相關技術的領域里,語料庫都是必不可少的基礎資料,且是支撐起整個系統的關鍵。
語料庫的采集或生成方式有多種形式,包括:⑴異質的(Heterogeneous):沒有特定的語料收集原則,廣泛收集并原樣存儲各種語料;⑵同質的(Homogeneous):只收集同一類內容的語料;⑶系統的(Systematic):根據預先確定的原則和比例收集語料,使語料具有平衡性和系統性,能夠代表某一范圍內的語言事實;⑷專用的(Specialized):只收集用于某一特定用途的語料。
但不管這些語料庫如何得到,最終在正式使用前都需要先對語料庫進行分類、標識等聚類管理,然后才能將其更好的應用于實際工作中。目前已公開的各種方法都不能很完美的對語料庫進行聚類操作,導致對語料庫的查詢結果不全面、不準確。
發明內容
本發明為解決上述問題,提供了一種用于語料庫的主題聚類模型構建系統及其構建方法,其不僅考慮文檔內部的主題和詞語,而且還考慮了文檔外部的關聯詞語,使模型得到的結果更準確,更接近用戶所需要的結果。
為實現上述目的,本發明采用的技術方案為:
一種用于語料庫的主題聚類模型構建系統,其包括:
主題提取模塊,對語料庫中的每篇文檔進行抽取主題;
詞語提取模塊,對抽取的每個主題進行抽取詞語;
詞語關聯模塊,對抽取的每個詞語進行添加關聯詞語;
分布統計模塊,根據每篇文檔抽取的主題,得到文檔的主題分布;根據每個主題抽取的詞語以及每個詞語對應的關聯詞語,得到主題的詞語分布;
概率統計模塊,根據文檔的主題分布和主題的詞語分布,計算得到每個文檔中的每個詞語的概率值;
結果輸出模塊,將每個文檔中的概率值最大的詞語作為該文檔的主題名稱,并以該主題名稱為標識對語料庫中的每篇文檔進行聚類。
優選的,每篇文檔與T個主題的一個多項分布相對應;每個主題進一步與所述詞語和所述關聯詞語的詞語集合中的V個詞語的一個多項分布相對應。
優選的,所述詞語關聯模塊中,所述關聯詞語包括:同義詞關聯詞語、近義詞關聯詞語、自定義關聯詞語。
優選的,所述自定義關聯詞語,是指將當前文檔相關聯的外部文檔作為關聯文檔,通過該關聯文檔進行查找所述詞語的關聯詞語。
優選的,所述概率統計模塊中,進一步包括:
根據文檔的主題分布得到每個文檔中的每個主題的概率值p(t|d);
根據主題的詞語分布得到每個主題中的每個詞語的概率值p(w|t);
將每個詞語的概率值乘以該詞語對應主題的概率值計算得到每個文檔中的每個詞語的概率值p(w|d);即:p(w|d)=p(w|t)*p(t|d)。
相應的,本發明還提供一種用于語料庫的主題聚類模型的構建方法,其包括以下步驟:
(10)對語料庫中的每篇文檔進行抽取主題;
(20)對抽取的每個主題進行抽取詞語;
(30)對抽取的每個詞語進行添加關聯詞語;
(40)根據每篇文檔抽取的主題,得到文檔的主題分布;根據每個主題抽取的詞語以及每個詞語對應的關聯詞語,得到主題的詞語分布;
(50)根據文檔的主題分布和主題的詞語分布,計算得到每個文檔中的每個詞語的概率值;
(60)將每個文檔中的概率值最大的詞語作為該文檔的主題名稱,并以該主題名稱為標識對語料庫中的每篇文檔進行聚類。
優選的,所述的步驟(10)中,每篇文檔與T個主題的一個多項分布相對應;所述的步驟(20)和步驟(30)中,每個主題進一步與所述詞語和所述關聯詞語的詞語集合中的V個詞語的一個多項分布相對應。
優選的,所述的步驟(30)中,所述關聯詞語包括:同義詞關聯詞語、近義詞關聯詞語、自定義關聯詞語;其中,所述自定義關聯詞語,是指將當前文檔相關聯的外部文檔作為關聯文檔,通過該關聯文檔進行查找所述詞語的關聯詞語。
優選的,所述的步驟(50)中,進一步包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門快商通科技股份有限公司,未經廈門快商通科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710306329.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種添加文本標注的方法及裝置
- 下一篇:一種文本情感分析處理方法和系統





