[發明專利]文檔主題確定方法及相關設備在審
| 申請號: | 201810350016.3 | 申請日: | 2018-04-18 |
| 公開(公告)號: | CN110390092A | 公開(公告)日: | 2019-10-29 |
| 發明(設計)人: | 鄭胤;黃俊洲 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 王仲凱 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中間參數 文檔主題 目標文檔 概率分布模型 神經網絡模型 存儲介質 確定裝置 權重 算法 折棍 申請 應用 保證 | ||
本申請提供了一種文檔主題的確定方法,該方法可以將目標文檔輸入到預先訓練得到的神經網絡模型中,以獲得第一中間參數,第一中間參數可以通過概率分布模型得到第二中間參數,進而第二中間參數通過折棍算法求得目標文檔的主題權重。另外,本申請還提供了一種文檔主題確定裝置及存儲介質,用以保證所述方法在實際中的應用及實現。
技術領域
本申請涉及文本分析技術領域,更具體地,是文檔主題確定方法及相關設備。
背景技術
文檔,是一種信息承載體,通過分析可以確定其所承載信息的主要內容,該主要內容可以稱為文檔的主題。文檔主題可以通過組成文檔的單詞的詞頻體現出來。例如,一篇文檔是講述經濟學的內容,那么其主題可能會被確定為“經濟”,且“貨幣”、“財政”、“成本”及“收益”等單詞出現的頻率就會很高;又如,一篇文檔是講述戰爭的,那么其主題可能會被確定為“戰爭”,且“武器”、“破壞”、“飛機”及“坦克”等單詞出現的頻率也會很高。
所確定的主題對于文檔的分析等具有重要意義,因此需要一種技術方案,用于確定文檔所包含的主題。
發明內容
有鑒于此,本申請提供了一種文檔主題確定方法,用于確定文檔所包含的主題。
為實現所述目的,本申請提供的技術方案如下:
第一方面,本申請提供了一種文檔主題的確定方法,包括:
獲得目標文檔及神經網絡模型,所述神經網絡模型用于在模型參數的限制下得到預設數量的第一中間參數;
將所述目標文檔輸入至所述神經網絡模型中,得到第一中間參數;
將所述第一中間參數輸入至概率分布模型中,得到第二中間參數的概率密度函數;
從所述第二中間參數的概率密度函數中采樣得到目標第二中間參數;
將所述目標第二中間參數輸入至折棍算法中,得到所述目標文檔的主題權重。
第二方面,本申請提供了一種文檔主題的確定裝置,包括:
文檔及模型獲得單元,用于獲得目標文檔及神經網絡模型,所述神經網絡模型用于在模型參數的限制下得到預設數量的第一中間參數;
第一中間參數獲得單元,用于將所述目標文檔輸入至所述神經網絡模型中,得到第一中間參數;
概率密度函數得到單元,用于將所述第一中間參數輸入至概率分布模型中,得到第二中間參數的概率密度函數;
第二中間參數獲得單元,用于從所述第二中間參數的概率密度函數中采樣得到目標第二中間參數;
主題權重確定單元,用于將所述目標第二中間參數輸入至折棍算法中,得到所述目標文檔的主題權重。
第三方面,本申請提供了一種文檔主題的確定設備,包括:存儲器及處理器;所述處理器通過運行存儲在所述存儲器內的軟件程序、調用存儲在所述存儲器內的數據,至少執行如下步驟:
獲得目標文檔及神經網絡模型,所述神經網絡模型用于在模型參數的限制下得到預設數量的第一中間參數;
將所述目標文檔輸入至所述神經網絡模型中,得到第一中間參數;
將所述第一中間參數輸入至概率分布模型中,得到第二中間參數的概率密度函數;
從所述第二中間參數的概率密度函數中采樣得到目標第二中間參數;
將所述目標第二中間參數輸入至折棍算法中,得到所述目標文檔的主題權重。
第四方面,本申請提供了一種可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時,執行上述文檔主題的確定方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810350016.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種排版文檔生成方法、裝置及設備
- 下一篇:一種語言模型建立方法及裝置





