[發(fā)明專利]知識增強的內容生成系統(tǒng)、數據生成方法、設備和介質在審
| 申請?zhí)枺?/td> | 202310632730.2 | 申請日: | 2023-05-30 |
| 公開(公告)號: | CN116541536A | 公開(公告)日: | 2023-08-04 |
| 發(fā)明(設計)人: | 王海峰;吳華;田浩;劉璟;陳艷 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/33;G06N3/04;G06N3/08 |
| 代理公司: | 北京市漢坤律師事務所 11602 | 代理人: | 姜浩然;吳麗麗 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 知識 增強 內容 生成 系統(tǒng) 數據 方法 設備 介質 | ||
1.一種知識增強的內容生成系統(tǒng),包括:
深度學習大模型,所述深度學習大模型能夠僅基于用戶的輸入數據生成回復數據;以及
知識檢索組件,用于基于輸入問詢提供相應的檢索結果,
其中,所述深度學習大模型被配置為:
響應于確定用戶的第一輸入數據包括多個知識點,輸出包括第一中間輸出數據和第二中間輸出數據的多個中間輸出數據,其中,所述第一中間數據和所述第二中間輸出數據分別對應所述多個知識點中相應的知識點;
獲得所述知識檢索組件針對所述多個中間輸出數據的相應的多個檢索結果,其中,所述多個檢索結果包括對應于所述第一中間輸出數據的第一檢索結果和對應于所述第二中間輸出數據的第二檢索結果;以及
基于所述第一輸入數據和所述多個檢索結果,生成回復內容。
2.如權利要求1所述的內容生成系統(tǒng),其中,所述多個中間輸出數據包括逐個生成的多個中間輸出令符,所述多個中間輸出令符包括與每一個中間輸出數據對應的多個字符令符和用于指示單個中間輸出數據已完整輸出的分隔令符,其中,所述響應于確定用戶的第一輸入數據包括多個知識點,輸出包括第一中間輸出數據和第二中間輸出數據的多個中間輸出數據,包括:
確定與將要生成的第N中間輸出令符對應的概率分布,其中,與第N中間輸出令符對應的概率分布等于第i中間輸出概率從i等于2至N的連乘與第一中間輸出概率的乘積,第一中間輸出概率指示在確定所述第一輸入數據包括多個知識點時,所述深度學習大模型基于所述第一輸入數據生成第一中間輸出令符的概率,第i中間輸出概率指示在確定所述第一輸入數據包括多個知識點時,所述深度學習大模型基于所述第一輸入數據和第i中間輸出令符之前的所有中間輸出令符生成第i中間輸出令符的概率;以及
基于與所述第N中間輸出令符對應的概率分布進行采樣,以生成所述第N中間輸出令符。
3.如權利要求1或2所述的內容生成系統(tǒng),其中,所述深度學習大模型是大語言模型,所述深度學習大模型是通過如下步驟訓練得到的:
獲取第一樣本輸入數據和與所述第一樣本輸入數據對應的多個真實輸出數據,所述第一樣本輸入數據包括多個第一樣本知識點,所述多個真實輸出數據包括第一真實中間輸出數據和第二真實中間輸出數據,所述第一真實中間輸出數據和所述第二真實中間輸出數據分別對應所述多個第一樣本知識點中相應的第一樣本知識點,并且所述第一真實中間輸出數據和所述第二真實中間輸出數據分別能夠用于輸入所述知識檢索組件以獲取與相應的第一樣本知識點相關的知識內容;
將所述第一樣本輸入數據輸入待訓練的初始深度學習大模型,以獲得相應的至少一個預測輸出數據;以及
基于所述多個真實輸出數據和所述至少一個預測輸出數據,調整所述初始深度學習大模型的參數,以得到所述深度學習大模型。
4.如權利要求1至3中任一項所述的內容生成系統(tǒng),其中,所述知識檢索組件是外部搜索引擎。
5.如權利要求1至3中任一項所述的內容生成系統(tǒng),其中,所述知識檢索組件包括知識檢索模型和知識庫。
6.如權利要求3所述的內容生成系統(tǒng),其中,所述知識檢索模型是與所述深度學習大模型聯(lián)合優(yōu)化訓練得到的,所述聯(lián)合優(yōu)化訓練包括:
獲取第二樣本輸入數據和樣本輸入問詢,所述第二樣本輸入數據至少包括第二樣本知識點,所述樣本輸入問詢對應所述第二樣本知識點;
將所述樣本輸入問詢輸入待聯(lián)合優(yōu)化的初始知識檢索模型,以獲得相應的多個樣本檢索結果;
將所述多個樣本檢索結果分別與所述第二樣本輸入數據輸入所述深度學習大模型,以得到與所述多個樣本檢索結果分別對應的多個樣本回復內容;
基于預先確定的標準對所述多個樣本回復內容進行評估,并基于評估結果對所述多個樣本檢索結果進行標注;以及
基于對所述多個樣本檢索結果的標注結果,調整所述初始知識檢索模型的參數,以得到所述知識檢索模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310632730.2/1.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統(tǒng)、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統(tǒng)、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統(tǒng)、內容服務器、內容終端及內容服務方法
- 內容分發(fā)系統(tǒng)、內容分發(fā)裝置、內容再生終端及內容分發(fā)方法
- 內容發(fā)布、內容獲取的方法、內容發(fā)布裝置及內容傳播系統(tǒng)
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發(fā)系統(tǒng)
- 內容發(fā)送設備、內容發(fā)送方法、內容再現設備、內容再現方法、程序及內容分發(fā)系統(tǒng)
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統(tǒng)
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





