[發明專利]文本語義相似度的確定方法及裝置有效
| 申請號: | 201611199224.5 | 申請日: | 2016-12-22 |
| 公開(公告)號: | CN106776503B | 公開(公告)日: | 2020-03-10 |
| 發明(設計)人: | 董超 | 申請(專利權)人: | 東軟集團股份有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/30 |
| 代理公司: | 北京鼎佳達知識產權代理事務所(普通合伙) 11348 | 代理人: | 劉喆;劉鐵生 |
| 地址: | 110179 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 語義 相似 確定 方法 裝置 | ||
本發明公開了一種文本語義相似度的確定方法及裝置,涉及自然語言處理技術領域,解決了現有文本相似度計算方法無法實現文本語義上的相似度的計算的問題。本發明的方法包括:獲取第一文本以及第二文本,第一文本和第二文本是需要進行語義相似度計算的任意兩個文本;根據預設標簽主題Label LDA模型將第一文本以及第二文本分別轉換為第一主題標簽向量和第二主題標簽向量,第一主題標簽向量和第二主題標簽向量中每個維度對應一個預設主題標簽;根據向量相似度算法對第一主題標簽向量和第二主題標簽向量進行相似度計算,得到第一文本與第二文本之間的語義相似度值。本發明應用于文本相似度計算的過程中。
技術領域
本發明涉及自然語言處理技術領域,尤其涉及一種文本語義相似度的確定方法及裝置。
背景技術
在移動互聯時代的背景下,信息的產生和流通是朝著更加智能化,更加海量化去發展,在這些龐大的信息海洋中,有很大一部分是文本信息。在日常生活中,我們每天都會從門戶網站、社交網站接觸到大量的新文本內容,如何將這些文本信息進行合理的歸類并將其推送給合適的人群,就成為了人工智能領域的一重大課題。在對這些龐大的文本信息進行歸類處理時,通常用到的技術是對文本的聚類。文本聚類是將一些有共同屬性的文本聚合到一塊,并形成一個類簇。目前,關于聚類的方法已經有很多種,不同的聚類方法在不同的場景中表現能力也是各有長短。然而,所有的聚類算法的一個共性就是需要比較樣本之間的相似度,而這個相似度在文本聚類過程中顯得尤為重要。
在具體實施的過程中,由于文本在計算機內部是以字符串形式來表示的,而相似度則是通過數值之間的關系來計算的。因此,在計算文本之間的相似度之前,必須要將文本進行向量化處理,然后將文本之間的相似度計算轉換為兩個向量之間的相似度計算。
目前對于文本向量化的方法主要有兩種:一種是用詞表詞頻的方式來對文本進行向量化處理,具體是將文本中的每一個不重復的詞的身份標識作為文本對應的向量的一個維度,并將每個詞出現的次數作為對應該維度的值,該種文本向量化的方式在計算的過程中會產生由于向量的維度過大而影響計算的效率,而且每個維度之間是相互獨立的,無法體現詞與詞之間的語義關系,因此無法從整體上實現文本語義的相似度計算。另一種是基于詞表權重選取方法的向量化處理,具體是通過計算文本中每個詞在該文本中的權重,然后按照權重由大到小的順序挑選出TOP N的詞以及對應的權重作為該文本的向量,權重的計算方法目前比較流行的是一種加權技術(term frequency–inverse documentfrequency,TF-IDF)算法,這種向量化處理方法雖然在一定程度上能夠過濾掉一些對文本貢獻很小的詞,但也不能表示詞與詞之間的語義關聯性,因此,也無法在整體上實現文本語義的相似度計算。
發明內容
鑒于上述問題,本發明提供一種文本語義相似度的確定方法及裝置,用以解決現有的文本相似度計算方法無法實現文本語義上的相似度的計算問題。
為解決上述技術問題,第一方面,本發明提供了一種文本語義相似度的確定方法,所述方法包括:
獲取第一文本以及第二文本,所述第一文本和所述第二文本是需要進行語義相似度計算的任意兩個文本;
根據預設標簽主題Label LDA模型將所述第一文本以及所述第二文本分別轉換為第一主題標簽向量和第二主題標簽向量,所述第一主題標簽向量和所述第二主題標簽向量中每個維度對應一個預設主題標簽,每個維度對應的維度值表示每個預設主題標簽的權重值,所述預設主題標簽為表示文本語義的單個主題詞;
根據向量相似度算法對所述第一主題標簽向量和所述第二主題標簽向量進行相似度計算,得到所述第一文本與所述第二文本之間的語義相似度值。
第二方面,本發明提供了一種文本語義相似度的確定裝置,所述裝置包括:
文本獲取單元,用于獲取第一文本以及第二文本,所述第一文本和所述第二文本是需要進行語義相似度計算的任意兩個文本;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東軟集團股份有限公司,未經東軟集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611199224.5/2.html,轉載請聲明來源鉆瓜專利網。





