[發(fā)明專利]一種數(shù)據(jù)處理方法、系統(tǒng)及相關裝置有效
| 申請?zhí)枺?/td> | 201110424177.0 | 申請日: | 2011-12-16 |
| 公開(公告)號: | CN102591917A | 公開(公告)日: | 2012-07-18 |
| 發(fā)明(設計)人: | 科比洛夫.維拉迪斯拉維;文劉飛;施廣宇 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市深佳知識產(chǎn)權代理事務所(普通合伙) 44285 | 代理人: | 彭愿潔;李文紅 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數(shù)據(jù)處理 方法 系統(tǒng) 相關 裝置 | ||
技術領域
本發(fā)明涉及信息檢索技術領域,尤其涉及一種數(shù)據(jù)處理方法、系統(tǒng)及相關裝置。
背景技術
信息檢索(Information?Retrieval)是指將信息按一定的方式組織和存儲起來,并根據(jù)信息用戶的需要找出有關信息的過程和技術。而狹義的信息檢索僅指從信息集合中找出所需要的信息的過程,相當于人們所說的信息查詢。當今,隨著互聯(lián)網(wǎng)的飛速發(fā)展,互聯(lián)網(wǎng)上的信息以指數(shù)級的方式增長,面對如此海量的信息資源,如何高效快速地獲取自己需要的信息對人們越來越重要。為了提高用戶信息檢索的質量和效率,可使用功能強大的信息檢索工具--搜索引擎,但搜索引擎在給人們帶來很大便利的同時,也暴露出以關鍵詞為基本索引單位的搜索技術的很多不足:一方面,無論用戶提交什么樣的關鍵詞,都會返回過多的結果,其中用戶真正需要的信息往往只占很小一部分,用戶不得不花費相當多的時間對這些結果進行人工篩選;另一方面,由于同義詞、近義詞的原因,許多與查找主題有關的文本和用戶輸入的關鍵詞并不完全匹配,導致搜索引擎不能找出這些文本。對信息基于主題進行分類、檢索是解決上述問題的一種有效途徑,可以在較大程度上解決網(wǎng)上信息異構、雜亂的問題,從而縮小搜索空間,提高檢索速度,改善查詢結果。
現(xiàn)有技術中,在層次隱含狄利克雷分配(hLDA,hierarchical?Latent?DirichletAllocation)模型超參數(shù)的求解過程中,對于給定的一個文本集合,需要首先給定模型所對應的nCRP先驗,并把hLDA模型超參數(shù)看成不變量,然后通過分布式的吉布斯抽樣,對于每一個文檔獲取相應的主題路徑,對文檔中的每個單詞獲取一個相應的主題,最后根據(jù)主題-單詞、文檔-主題計數(shù)矩陣算出最近似的參數(shù)hLDA模型超參數(shù)。
但是,在現(xiàn)有技術中,由于將hLDA模型超參數(shù)看成不變量,因此在求解過程中,無法達到最大近似解,最后求出的參數(shù)hLDA模型超參數(shù)精度較低,并且求解速度較慢。
發(fā)明內容
本發(fā)明實施例提供了一種數(shù)據(jù)處理方法、系統(tǒng)及相關裝置。用以通過并行化求解提高hLDA模型的參數(shù)求解速度,并通過基于最大似然的超參數(shù)估計提高hLDA模型的參數(shù)求解精度。
本發(fā)明實施例中的數(shù)據(jù)處理方法,包括:將全局初始統(tǒng)計信息發(fā)送給各從節(jié)點,所述全局初始統(tǒng)計信息包括:根據(jù)文本集預先劃分的文本子集信息,預先設置的層次隱含狄利克雷分配模型的初始超參數(shù)信息,預先建立的所述文本集的嵌套的中國餐館過程先驗,文檔的層次主題路徑信息,文檔-主題計數(shù)矩陣信息,主題-單詞計數(shù)矩陣信息;歸并接收到的各從節(jié)點的局部統(tǒng)計信息,得到新的全局統(tǒng)計信息,所述局部統(tǒng)計信息包括:所述各從節(jié)點的文檔-主題計數(shù)矩陣,主題-單詞計數(shù)矩陣,文檔層次主題路徑,所述新的全局統(tǒng)計信息包括:全局文本-主題計數(shù)矩陣信息,所述各從節(jié)點的主題-單詞計數(shù)矩陣信息,以及全局文檔層次主題路徑;若從節(jié)點進行的吉布斯采樣已結束,則根據(jù)所述新的全局統(tǒng)計信息計算文檔與主題之間的概率分布,以及主題與單詞之間的概率分布,所述吉布斯采樣用于為各文檔的各單詞分配主題,以及為各文檔分配層次主題路徑;根據(jù)計算所得到的概率分布,建立所述文本集的似然函數(shù),并極大化所述似然函數(shù),得到新的層次隱含狄利克雷分配模型超參數(shù);若求解層次隱含狄利克雷分配模型超參數(shù)迭代已收斂,則根據(jù)所述新的層次隱含狄利克雷分配模型超參數(shù),計算并輸出文檔與主題之間的概率分布,以及主題與單詞之間的概率分布。
本發(fā)明實施例中的數(shù)據(jù)處理方法,包括:接收主節(jié)點發(fā)送的全局初始統(tǒng)計信息,所述全局初始統(tǒng)計信息包括:根據(jù)文本集預先劃分的文本子集信息,預先設置的層次隱含狄利克雷分配模型的初始超參數(shù)信息,預先建立的所述文本集的嵌套的中國餐館過程先驗,文檔的層次主題路徑信息,文檔-主題計數(shù)矩陣信息,主題-單詞計數(shù)矩陣信息;根據(jù)所述各文檔的層次主題路徑,通過吉布斯采樣為所述各文檔中的每個單詞重新分配主題;根據(jù)所述嵌套的中國餐館過程先驗,更新后的文檔-主題計數(shù)矩陣及主題-單詞計數(shù)矩陣,通過吉布斯采樣,為每個文檔重新分配層次主題路徑;將局部統(tǒng)計信息發(fā)送給主節(jié)點,所述局部統(tǒng)計信息包括:本從節(jié)點的更新后的文檔-主題計數(shù)矩陣信息,主題-單詞計數(shù)矩陣信息以及各文檔的層次主題路徑信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經(jīng)華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110424177.0/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)處理設備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計算機可讀取的記錄介質
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序





