[發(fā)明專利]基于PLSA算法判斷文檔相關性的方法及裝置有效
| 申請?zhí)枺?/td> | 201310684227.8 | 申請日: | 2013-12-13 |
| 公開(公告)號: | CN103678599B | 公開(公告)日: | 2016-10-26 |
| 發(fā)明(設計)人: | 何銳邦;唐會軍 | 申請(專利權)人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市浩天知識產權代理事務所(普通合伙) 11276 | 代理人: | 宋菲;劉蘭蘭 |
| 地址: | 100088 北京市西城區(qū)新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 plsa 算法 判斷 文檔 相關性 方法 裝置 | ||
技術領域
本發(fā)明涉及網絡通信技術領域,具體涉及一種基于PLSA算法判斷文檔相關性的方法及裝置。
背景技術
目前,在判斷兩個文檔的相關性時所采用的傳統(tǒng)方法是通過查看兩個文檔共同出現的詞匯的多少進行判斷,例如可以采用TF-IDF(term?frequency–inverse?document?frequency)等算法來判斷。但是,這種方法只是采用簡單的詞匯匹配方式進行判斷,并沒有考慮到文字背后的語義關聯,有時,可能在兩個文檔中共同出現的詞匯很少甚至沒有,但由于這兩個文檔的語義相關,導致這兩個文檔實質上是相似的。因此,為了提高判斷結果的準確率,在判斷文檔相關性的時候還需要考慮詞匯的語義關聯問題。通常,采用主題模型來進行語義挖掘,進而判斷語義是否相關。常用的主題模型算法為PLSA(Probabilistic?Latent?Semantic?Analysis,概率潛在語義分析)算法。
PLSA算法屬于模糊聚類算法,其目的在于從文本中發(fā)現隱含的主題,具有處理一詞多義和一義多詞的能力。通過PLSA算法進行計算時,需要用到兩個初始矩陣,第一個初始矩陣表示文檔與主題之間的對應關系,第二個初始矩陣表示詞匯與主題之間的對應關系。具體地,先要對這兩個初始矩陣進行初始化,然后,在后續(xù)的計算過程中,不斷地根據輸入數據,一輪一輪地進行迭代,從而對這兩個初始矩陣進行修正,直到計算結果收斂(即符合輸入數據的真實概率分布)為止。
目前,在對上述的兩個初始矩陣進行初始化時,通常假設每篇文檔都以相同的概率屬于各個主題,即:如果指定了共有T個主題,則每篇文檔在每個主題下的概率均為1/T,因此,第一個初始矩陣中各個矩陣數據的初始值均為1/T。同理,假設每個詞都會出現在每個主題中,并且出現的概率相同,即:如果共有W個詞,則每個主題下,每個詞的出現概率均為1/W,因此,第二個初始矩陣中各個矩陣數據的初始值均為1/W。采用上述初始化方式時,由于每個初始矩陣的各個數據所表示的概率都是相同的,而這往往與實際情況相去甚遠,所以,在后續(xù)的迭代過程中往往需要迭代計算較多的輪數(通常情況下超過200輪),才能使計算結果收斂。所以計算耗時非常長,數據量大的情況下往往需要一整天的時間。
發(fā)明內容
鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的基于PLSA算法判斷文檔相關性的方法及裝置。
依據本發(fā)明的一個方面,提供了一種基于PLSA算法判斷文檔相關性的方法,包括:根據文檔信息確定待處理的元素以及元素對應的分類;將元素的個數N確定為PLSA算法中所需的計算矩陣的列數,將分類的個數M確定為計算矩陣的行數,其中,計算矩陣中的矩陣數據表示元素與分類之間的對應關系,N和M均為自然數;通過硬聚類算法將N個待處理的元素匯聚為M個分類,得到每個元素在各個分類下的隸屬度取值;根據每個元素在各個分類下的隸屬度取值,對計算矩陣中的矩陣數據進行初始化,并根據PLSA算法對初始化之后的矩陣數據進行迭代運算,根據運算結果判斷文檔是否相關。
可選地,文檔信息包括:文檔標號以及文檔所屬的主題,則待處理的元素為文檔標號,分類為文檔所屬的主題,則計算矩陣中的矩陣數據表示文檔標號與主題之間的對應關系。
可選地,文檔信息包括:文檔所屬的主題以及文檔中的詞匯,則待處理的元素為文檔中的詞匯,分類為文檔所屬的主題,計算矩陣中的矩陣數據表示詞匯與主題之間的對應關系。
可選地,硬聚類算法為MinHash算法或SimHash算法。
可選地,每個元素在各個分類下的隸屬度取值為0或1,則根據每個元素在各個分類下的隸屬度取值,對計算矩陣中的矩陣數據進行初始化的步驟具體包括:當一個元素在指定分類下的隸屬度取值為0時,將計算矩陣中相應的矩陣數據初始化為0;當一個元素在指定分類下的隸屬度取值為1時,將計算矩陣中相應的矩陣數據初始化為1;進一步判斷每一行的矩陣數據之和是否大于1,并在大于1時對該行數據進行歸一化,使該行數據之和等于1。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310684227.8/2.html,轉載請聲明來源鉆瓜專利網。





