[發(fā)明專利]基于PLSA算法判斷文檔相關性的方法及裝置有效

申請?zhí)枺?/td>	201310684227.8	申請日：	2013-12-13
公開（公告）號：	CN103678599B	公開（公告）日：	2016-10-26
發(fā)明（設計）人：	何銳邦;唐會軍	申請（專利權）人：	北京奇虎科技有限公司;奇智軟件（北京）有限公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	北京市浩天知識產權代理事務所(普通合伙) 11276	代理人：	宋菲;劉蘭蘭
地址：	100088 北京市西城區(qū)新***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于 plsa 算法判斷文檔相關性方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發(fā)明涉及網絡通信技術領域，具體涉及一種基于PLSA算法判斷文檔相關性的方法及裝置。

背景技術

目前，在判斷兩個文檔的相關性時所采用的傳統(tǒng)方法是通過查看兩個文檔共同出現的詞匯的多少進行判斷，例如可以采用TF-IDF（term?frequency–inverse?document?frequency）等算法來判斷。但是，這種方法只是采用簡單的詞匯匹配方式進行判斷，并沒有考慮到文字背后的語義關聯，有時，可能在兩個文檔中共同出現的詞匯很少甚至沒有，但由于這兩個文檔的語義相關，導致這兩個文檔實質上是相似的。因此，為了提高判斷結果的準確率，在判斷文檔相關性的時候還需要考慮詞匯的語義關聯問題。通常，采用主題模型來進行語義挖掘，進而判斷語義是否相關。常用的主題模型算法為PLSA（Probabilistic?Latent?Semantic?Analysis，概率潛在語義分析）算法。

PLSA算法屬于模糊聚類算法，其目的在于從文本中發(fā)現隱含的主題，具有處理一詞多義和一義多詞的能力。通過PLSA算法進行計算時，需要用到兩個初始矩陣，第一個初始矩陣表示文檔與主題之間的對應關系，第二個初始矩陣表示詞匯與主題之間的對應關系。具體地，先要對這兩個初始矩陣進行初始化，然后，在后續(xù)的計算過程中，不斷地根據輸入數據，一輪一輪地進行迭代，從而對這兩個初始矩陣進行修正，直到計算結果收斂（即符合輸入數據的真實概率分布）為止。

目前，在對上述的兩個初始矩陣進行初始化時，通常假設每篇文檔都以相同的概率屬于各個主題，即：如果指定了共有T個主題，則每篇文檔在每個主題下的概率均為1/T，因此，第一個初始矩陣中各個矩陣數據的初始值均為1/T。同理，假設每個詞都會出現在每個主題中，并且出現的概率相同，即：如果共有W個詞，則每個主題下，每個詞的出現概率均為1/W，因此，第二個初始矩陣中各個矩陣數據的初始值均為1/W。采用上述初始化方式時，由于每個初始矩陣的各個數據所表示的概率都是相同的，而這往往與實際情況相去甚遠，所以，在后續(xù)的迭代過程中往往需要迭代計算較多的輪數（通常情況下超過200輪），才能使計算結果收斂。所以計算耗時非常長，數據量大的情況下往往需要一整天的時間。

發(fā)明內容

鑒于上述問題，提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的基于PLSA算法判斷文檔相關性的方法及裝置。

依據本發(fā)明的一個方面，提供了一種基于PLSA算法判斷文檔相關性的方法，包括：根據文檔信息確定待處理的元素以及元素對應的分類；將元素的個數N確定為PLSA算法中所需的計算矩陣的列數，將分類的個數M確定為計算矩陣的行數，其中，計算矩陣中的矩陣數據表示元素與分類之間的對應關系，N和M均為自然數；通過硬聚類算法將N個待處理的元素匯聚為M個分類，得到每個元素在各個分類下的隸屬度取值；根據每個元素在各個分類下的隸屬度取值，對計算矩陣中的矩陣數據進行初始化，并根據PLSA算法對初始化之后的矩陣數據進行迭代運算，根據運算結果判斷文檔是否相關。

可選地，文檔信息包括：文檔標號以及文檔所屬的主題，則待處理的元素為文檔標號，分類為文檔所屬的主題，則計算矩陣中的矩陣數據表示文檔標號與主題之間的對應關系。

可選地，文檔信息包括：文檔所屬的主題以及文檔中的詞匯，則待處理的元素為文檔中的詞匯，分類為文檔所屬的主題，計算矩陣中的矩陣數據表示詞匯與主題之間的對應關系。

可選地，硬聚類算法為MinHash算法或SimHash算法。

可選地，每個元素在各個分類下的隸屬度取值為0或1，則根據每個元素在各個分類下的隸屬度取值，對計算矩陣中的矩陣數據進行初始化的步驟具體包括：當一個元素在指定分類下的隸屬度取值為0時，將計算矩陣中相應的矩陣數據初始化為0；當一個元素在指定分類下的隸屬度取值為1時，將計算矩陣中相應的矩陣數據初始化為1；進一步判斷每一行的矩陣數據之和是否大于1，并在大于1時對該行數據進行歸一化，使該行數據之和等于1。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司;奇智軟件（北京）有限公司，未經北京奇虎科技有限公司;奇智軟件（北京）有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201310684227.8/2.html，轉載請聲明來源鉆瓜專利網。