[發明專利]一種基于多義詞和同義詞的聚類矯正方法在審
| 申請號: | 202310248724.7 | 申請日: | 2023-03-15 |
| 公開(公告)號: | CN116384378A | 公開(公告)日: | 2023-07-04 |
| 發明(設計)人: | 鄭志松;林鋒;吳運昌;丁仙峰 | 申請(專利權)人: | 江蘇數兌科技有限公司 |
| 主分類號: | G06F40/247 | 分類號: | G06F40/247;G06F40/289;G06F40/216;G06F18/23;G06F40/211;G06F40/30;G06F18/22 |
| 代理公司: | 南京知識律師事務所 32207 | 代理人: | 李湘群 |
| 地址: | 210001 江蘇省南京市秦淮區永智路*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多義詞 同義詞 矯正 方法 | ||
本發明公開了一種基于多義詞和同義詞的聚類矯正方法,包括以下步驟:構建文本語料庫并統計文本的詞頻信息;在文本的上下文中找出含有多義詞或同義詞的句子;對于多義詞,提取原始句子的特征向量,進行多義矯正,計算詞向量的余弦相似度;對于同義詞,使用word2vec模型訓練文本的上下文重建文本語料庫,將單詞表示成一個長向量,輸入到機器學習模型當中作為語料庫,進行同義矯正,將數字存儲在哈希表中;進行迭代優化,計算梯度,并在非葉節點處提取向量;本方案通過關注聚類過程中的多義詞和同義詞問題,使用詞袋模型來區分相同詞語的語境以及通過word2vec模型來重新聚類具有相似含義的詞,達到聚類過程糾正的目的。
技術領域
本發明涉及文本聚類領域,特別涉及一種基于多義詞和同義詞的聚類矯正方法。
背景技術
在機器學習中,一個重要的任務就是需要定量化描述數據中的集聚現象。聚類分析也是模式識別和數據挖掘領域一個極富有挑戰性的研究方向,它是在無監督學習下探索數據對象的合適的簇的過程,在探索過程中,簇與簇之間的數據對象差異越來越明顯,簇內的數據對象之間差異越來越小。最終在已知無標簽的數據集上找到合適的簇,將這些無標簽的數據合理的劃分到合適的簇中。其中,文本聚類是聚類分析在文本中的應用,它主要應用于自動化文檔管理、主題抽取和快速信息檢索過濾等方面。一般來說,文檔聚類有兩種常見的算法。第一種是基于層次的算法,這種算法并不能有效地處理所有的問題;另一種算法是使用K-means算法及其變體的開發;一方面,分層算法可以詳細分析并生成更深入的信息,另一方面,基于K-means算法及其變體的算法對深入信息挖掘更為有效,并為大多數模型提供足夠的樣本信息。
然而,近年來,隨著互聯網技術日新月異,信息規模指數級增長,每一天都能夠帶來海量信息,這些信息大部分來自一些主流平臺,這些信息往往具有短文本、口語化、富含噪聲、網絡迭代快等特點,因此傳統的聚類算法并不適合,要想及時的挖掘出文本中潛在的語義關聯并不容易。要對海量文本進行聚類分析不僅需要有強大的數據分析與處理能力,更需要對語義信息進行修正,從而能夠更好的契合現實發展的需要。
現有的聚類方法包括凝聚聚類、具有噪聲的基于密度的空間聚類應用density-based?spatial?clustering?of?applications?with?noise、高斯混合聚類等。它們具有一些相同的缺陷:在文檔聚類過程中,文本和語句通常表示為向量,在這種情況下,許多多義詞不能被很好的描述。一方面,某些名詞或者縮寫有時會干擾特定區域的聚類過程;另一方面,許多相似的詞或短句不能很好的收集在一起,在某種程度上造成語義信息的丟失,這使得聚類算法在特定場景中的應用變得不夠準確。它們也有一些不同的缺陷:凝聚聚類在聚類的過程中,由于每次只能合并兩個簇,導致這一過程的計算復雜度高,因此這種聚類方法不適用于大數據量的聚類;具有噪聲的基于密度的空間聚類應用在遇到簇之間的密度不均勻的場景下,聚類效果將會非常差,并且它跟凝聚聚類一樣,無法對新的數據進行預測;高斯混合聚類的缺點是計算量大,導致該方法的性能存在局限。
在聚類過程,有時會將含義相似的詞語分配在同一類中,這降低了聚類的準確性,有時這個問題存在于一個單詞和一個短語之間,盡管他們的意思是相近的,但它們的形式卻不同,這需要從實際的語境來考察這些詞句之間的異同。
發明內容
為此,需要提供一種通過關注聚類過程中的多義詞和同義詞問題,使用詞袋模型來區分相同詞語的語境以及通過word2vec模型來重新聚類具有相似含義的詞,提高聚類算法、達到聚類過程糾正的作用。
為實現上述目的,發明人提供了一種基于多義詞和同義詞的聚類矯正方法,包括以下步驟:
S101、構建文本語料庫并統計文本的詞頻信息;
S102、在文本的上下文中找出含有多義詞或同義詞的句子;
S103、對于多義詞,使用詞袋模型提取原始句子的特征向量;
S104、對于多義詞,在詞袋模型中,保留多義詞的上下文作為特征向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇數兌科技有限公司,未經江蘇數兌科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310248724.7/2.html,轉載請聲明來源鉆瓜專利網。





