[發明專利]一種數據處理方法、系統及相關裝置有效
| 申請號: | 201110424177.0 | 申請日: | 2011-12-16 |
| 公開(公告)號: | CN102591917A | 公開(公告)日: | 2012-07-18 |
| 發明(設計)人: | 科比洛夫.維拉迪斯拉維;文劉飛;施廣宇 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 彭愿潔;李文紅 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據處理 方法 系統 相關 裝置 | ||
1.一種數據處理方法,其特征在于,包括:
將全局初始統計信息發送給各從節點,所述全局初始統計信息包括:根據文本集預先劃分的文本子集信息,預先設置的層次隱含狄利克雷分配模型的初始超參數信息,預先建立的所述文本集的嵌套的中國餐館過程先驗,文檔的層次主題路徑信息,文檔-主題計數矩陣信息,主題-單詞計數矩陣信息;
歸并接收到的各從節點的局部統計信息,得到新的全局統計信息,所述局部統計信息包括:所述各從節點的文檔-主題計數矩陣,主題-單詞計數矩陣,文檔層次主題路徑,所述新的全局統計信息包括:全局文本-主題計數矩陣信息,所述各從節點的主題-單詞計數矩陣信息,以及全局文檔層次主題路徑;
若從節點進行的吉布斯采樣已結束,則根據所述新的全局統計信息計算文檔與主題之間的概率分布,以及主題與單詞之間的概率分布,所述吉布斯采樣用于為各文檔的各單詞分配主題,以及為各文檔分配層次主題路徑;
根據計算所得到的概率分布,建立所述文本集的似然函數,并極大化所述似然函數,得到新的層次隱含狄利克雷分配模型超參數;
若求解層次隱含狄利克雷分配模型超參數迭代已收斂,則根據所述新的層次隱含狄利克雷分配模型超參數,計算并輸出文檔與主題之間的概率分布,以及主題與單詞之間的概率分布。
2.根據權利要求1所述的方法,其特征在于,所述將全局初始統計信息發送給從節點之前包括:
為層次隱含狄利克雷分配模型的各超參數分別設定不同的初始值;
將所述文本集劃分成多個文本子集,所述文本子集的數量與節點的數量相同;
為所述文本集中的每個文檔分配一個主題路徑,為文檔中的每個單詞分配一個主題,根據統計的所述文本集的單詞總數,每個文檔包含的單詞總數,以及所述文本集的單詞表,得到文檔-主題計數矩陣及主題-單詞計數矩陣。
3.根據權利要求1或2所述的方法,其特征在于,所述歸并接收到的各從節點的局部統計信息,得到新的全局統計信息之后包括:
判斷從節點進行的吉布斯采樣是否結束;
所述判斷從節點進行的吉布斯采樣是否結束包括:
根據吉布斯采樣的迭代次數或者似然函數的梯度判斷吉布斯采樣是否結束。
4.根據權利要求3所述的方法,其特征在于,所述方法還包括:
若從節點進行的吉布斯采樣未結束,則將所述新的全局統計信息發送給所述從節點。
5.根據權利要求4所述的方法,其特征在于,所述根據計算所得到的概率分布,建立所述文本集的似然函數,并極大化所述似然函數,得到新的層次隱含狄利克雷分配模型超參數之后包括:
判斷期望最大算法迭代是否收斂;
所述判斷期望最大算法迭代是否收斂包括:
當所述層次隱含狄利克雷分配模型超參數所對應的所述文檔集的似然函數值的梯度小于預置的梯度閾值時,則確定期望最大算法的迭代已經收斂。
6.根據權利要求5所述的方法,其特征在于,所述方法還包括:
若求解層次隱含狄利克雷分配模型超參數迭代未收斂,則將更新層次隱含狄利克雷分配模型超參數后的所述新的全局統計信息發送給從節點。
7.一種數據處理方法,其特征在于,包括:
接收主節點發送的全局初始統計信息,所述全局初始統計信息包括:根據文本集預先劃分的文本子集信息,預先設置的層次隱含狄利克雷分配模型的初始超參數信息,預先建立的所述文本集的嵌套的中國餐館過程先驗,文檔的層次主題路徑信息,文檔-主題計數矩陣信息,主題-單詞計數矩陣信息;
根據所述各文檔的層次主題路徑,通過吉布斯采樣為所述各文檔中的每個單詞重新分配主題;
根據所述嵌套的中國餐館過程先驗,更新后的文檔-主題計數矩陣及主題-單詞計數矩陣,通過吉布斯采樣,為每個文檔重新分配層次主題路徑;
將局部統計信息發送給主節點,所述局部統計信息包括:本從節點的更新后的文檔-主題計數矩陣信息,主題-單詞計數矩陣信息以及各文檔的層次主題路徑信息。
8.根據權利要求7所述的方法,其特征在于,所述根據所述各文檔的層次主題路徑,通過吉布斯采樣為所述各文檔中的每個單詞重新分配主題之后包括:
更新重新分配單詞主題后的各文檔的文檔-主題計數矩陣,及主題-單詞計數矩陣信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110424177.0/1.html,轉載請聲明來源鉆瓜專利網。





