[發明專利]基于狄利克雷多項混合模型的長文本輔助短文本的文本聚類方法有效
| 申請號: | 201710504980.2 | 申請日: | 2017-06-28 |
| 公開(公告)號: | CN107798043B | 公開(公告)日: | 2022-05-03 |
| 發明(設計)人: | 黃瑞章;閆盈盈;馬燦;徐立洋;丁志遠;王瑞;黃庭;劉博偉 | 申請(專利權)人: | 貴州大學;貴州耕云科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 北京睿智保誠專利代理事務所(普通合伙) 11732 | 代理人: | 周新楣 |
| 地址: | 550025 貴州省貴*** | 國省代碼: | 貴州;52 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 狄利克雷 多項 混合 模型 文本 輔助 方法 | ||
本發明公開了一種基于狄利克雷多項混合模型的長文本輔助短文本的文本聚類方法。針對短文本的特征稀疏問題,本發明提出了主題相關長文本輔助短文本的思想,輔助的基礎是長文本與短文本共享相同的主題?詞語分配。為了更好地提升聚類效果,該發明能夠自動判斷長文本中的有用詞和噪音詞,利用長文本中高質量的有用詞與短文本集合進行文本聚類。此外,本發明能夠自動識別文本集類的數目,改進了傳統文本集類數目需要人為提前給定的情況。
技術領域
本發明涉及文本分析領域,特別涉及到一種長文本輔助短文本的文本聚類方法。
隨著互聯網的快速發展,網絡上產生了大量的短文本,如新聞網站的標題、騰訊空間的說說、新浪微博、百度知識問答、商品評論等等。短文本聚類已經引起了各行各業的廣泛關注。短文本聚類對于獲取用戶的觀點,監測突發性事件等具有重要的作用。然而,發現短文本的主題信息是不容易的。直接用傳統的主題模型處理短文本效果不佳,主要原因是短文本字數有嚴格限制(例如:推文為140字符以內)。除此之外,短文本還具有書寫隨意,噪音大等特點。這些特點都干擾了短文本的主題發現過程。
與短文本相比,長文本具有非常豐富的詞語信息,并且以Latent DirichletAllocation(LDA)模型為代表的傳統主題模型在挖掘和理解以新聞為代表的長文本主題方面已經收到了良好的效果。此外,實際生活中很方便收集與短文本主題相關的長文本信息。例如:新浪微博上討論的一些熱門話題通常也會出現在新浪推送的新聞中;網頁的搜索片段一般都與某些網站的內容是相關聯的。因此,為了解決短文本的稀疏性問題,利用長文本中高質量的主題知識改善短文本文檔聚類是可行的。通常,并不是長文本中每個詞語都是有用的。長文本中的詞語包括判別詞和噪音詞兩種,但僅僅判別詞對于文本聚類是有用的。長文本中的無關噪聲詞會拉低長文本獲得高質量結構化知識的能力,從而干擾短文本聚類過程。當類的數目不確定時,這種干擾情況將會加劇。
短文本聚類的第二大挑戰是類的數目不確定問題。傳統的短文本聚類方法假設類的數目是人為提前給定的。然而,給定大規模的短文本,用戶必須瀏覽整個文檔集合,目的是估計類的數目。顯然,這一過程是耗時的、不切實際的。此外,錯誤的類估計將會誤導短文本聚類過程,產生一個較差的聚類結果。
因此,針對短文本的特征稀疏和類數目不確定兩大問題,需要一種新的短文本聚類方法以獲取更為理想的聚類結果。
發明內容
本發明的目的是:提供一種基于狄利克雷多項混合模型的長文本輔助短文本的文本聚類方法,它改善了短文本的聚類效果,并能夠提高輔助短文本聚類的長文本的質量,還能自動推斷長短文本各自的主題個數。
本發明是這樣實現的:基于狄利克雷多項混合模型的長文本輔助短文本的文本聚類方法,包括如下步驟:
1)將主題相關的長文本集與短文本集進行文本預處理:進行分詞,去停用詞、低頻詞及標點數字;
2)基于狄利克雷多項混合模型構建主題模型:構建得到主題模型,主題模型如圖2所示;
圖2中,α表示狄利克雷分布的參數,是一個向量,維度等于主題的個數;β,λ表示狄利克雷分布的參數,維度等于語料庫詞匯總數;ω表示伯努利分布的參數,表示一個詞為有用詞的概率;θL表示長文本集的主題分布;θS短文本集的主題分布;短文本集詞語與長文本集有用詞形成的主題-詞語分布;噪音詞的詞語分布,模型假設長文本中的噪音詞來源于一個主題;zl表示從θL中采樣的長文本和短文本的主題;zs表示從θS中采樣的長文本和短文本的主題;γ伯努利分布的結果,如果γ=1為該詞為有用詞,如果γ=0為該詞為噪音詞;xl,xs分別表示一篇長文本,短文本;L長文本總篇數;S短文本總篇數;K初始化時主題的總數目;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于貴州大學;貴州耕云科技有限公司,未經貴州大學;貴州耕云科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710504980.2/2.html,轉載請聲明來源鉆瓜專利網。





